主要是许多html文档不是格式良好的。 用 JTidy 把 HTML 转换成 XML 兼容的 DOM Tidy tidy = new Tidy(); tidy.setQuiet(true); tidy.setShowWarnings(false); Document tidyDOM = tidy.parseDOM(inputStream, null); 用这个简单的转换,就差不多能把每个 Web 页面都当作 XML 文档进行处理,还能用自己喜欢的任何 XML 工具(比如 SAX、XSL、XPath,等等)提取数据。
或者htmlparser
见http://www.yeeach.com/2008/05/19/htmlparser%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%97/
用 JTidy 把 HTML 转换成 XML 兼容的 DOM
Tidy tidy = new Tidy();
tidy.setQuiet(true);
tidy.setShowWarnings(false);
Document tidyDOM = tidy.parseDOM(inputStream, null);
用这个简单的转换,就差不多能把每个 Web 页面都当作 XML 文档进行处理,还能用自己喜欢的任何 XML 工具(比如 SAX、XSL、XPath,等等)提取数据。