如何读取html文件

我在做一个程序，将html存为指定的格式。请教高手，如何读取html文件？是读它的源代码吗？

先把你的HTML文件定义为一个模板。比如标题定义为#title#，然生用public String replaceAll(String regex, String replacement)替换"#"
刚好前阵子也在做这方面的应用,给你个方向```用NekoHTML下面是抄来的简介````用起来还不错,就是麻烦点,我在节点里跳来跳去的``头很晕~~~~~Andrew Clark用Java写了一系列的工具(Java APIs)，NekoHTML是其中之一。
　　NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者（人或机器）在编写HTML文档过程中常犯的错误。NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素，以及不匹配的内嵌元素标签。NekoHTML的开发使用了Xerces Native Interface (XNI)，后者是Xerces2的实现基础。