解决方案 »

  1.   

    不知道你用httpunit没有,它是一个模拟浏览器测试网页的工具,在它里面获取返回的网页就可以直接转换成DOM
    示例代码如下,你可以参看它的实现原理: WebConversation wc = new WebConversation();
    WebResponse ws;
    try {
    ws = wc.getResponse("http://www.baidu.com");
    Document doc = ws.getDOM();
    } catch (SAXException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
    }
      

  2.   

    可以看看这个项目: HtmlParser
      

  3.   

    html里可能有大量的不合法的标记哦
    咋解析啊 例如<br>就不合法的
    <br/>才是合法的哦