如何像操作XML文件一样操作HTML文件？

前几天刚刚学会用dom4j操作XML。现在又要操作HTML了，网上没有找到相关资料难道用正则？太麻烦了吧我想结构都差不多的，应该有方法吧

把html当作xml来解析就行
或者htmlparser
用HtmlParser
见http://www.yeeach.com/2008/05/19/htmlparser%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%97/
主要是许多html文档不是格式良好的。
用 JTidy 把 HTML 转换成 XML 兼容的 DOM
Tidy tidy = new Tidy();
tidy.setQuiet(true);
tidy.setShowWarnings(false);
Document tidyDOM = tidy.parseDOM(inputStream, null);
用这个简单的转换，就差不多能把每个 Web 页面都当作 XML 文档进行处理，还能用自己喜欢的任何 XML 工具（比如 SAX、XSL、XPath，等等）提取数据。