前几天刚刚学会用dom4j操作XML。现在又要操作HTML了,网上没有找到相关资料难道用正则?太麻烦了吧我想结构都差不多的,应该有方法吧

解决方案 »

  1.   

    把html当作xml来解析就行
    或者htmlparser
      

  2.   

    用HtmlParser
    http://www.yeeach.com/2008/05/19/htmlparser%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%97/
      

  3.   

    主要是许多html文档不是格式良好的。
    用 JTidy 把 HTML 转换成 XML 兼容的 DOM 
    Tidy tidy = new Tidy(); 
    tidy.setQuiet(true);
    tidy.setShowWarnings(false);
    Document tidyDOM = tidy.parseDOM(inputStream, null);
    用这个简单的转换,就差不多能把每个 Web 页面都当作 XML 文档进行处理,还能用自己喜欢的任何 XML 工具(比如 SAX、XSL、XPath,等等)提取数据。