我想用JAVA获取到截图部分的HTML代码。JSP怎么获取,能否给个案例。

解决方案 »

  1.   

    想将整个文件全部读取进来,然后通过DOM4J解析,找到想要的节点即可。
      

  2.   

    我的思路也是把所有都读进来,但后面的方法比较挫,我写了一些正则表达式来匹配,但是目前的
    问题就是不知道用什么方法把整个文件读进来,我目前的那段代码只能读到
    <tr id="lodingtr"><td colspan="12">数据加载中,请稍候....</td></tr>这个东西,读不到实际的内容。
      

  3.   

    TO scottxzj:有没有比较好用的,推荐一个。
      

  4.   

    我的思路也是把所有都读进来,但后面的方法比较挫,我写了一些正则表达式来匹配,但是目前的
    问题就是不知道用什么方法把整个文件读进来,我目前的那段代码只能读到
    <tr id="lodingtr"><td colspan="12">数据加载中,请稍候....</td></tr>这个东西,读不到实际的内容。 
      

  5.   

    这个其实我在作毕业设计的时候做过,当时做的是网络爬虫部分。
    网络爬虫也只能爬取静态的页面。对于这种ajax的网页,当时我采取的思路是采用java浏览器,先加载ajax的网页信息,然后读取浏览器中的html代码。思路就是这样。
    java浏览器当时用的是jrex。可以作为思路参考下,当时是完全实现了的,要实现你的功能应该没问题的。
      

  6.   

    jericho-html-3.2.jar  我原来用的是这个,不知道现在有没有新的包了
      

  7.   

    可以提供点代码参考下吗?
    顺便弱弱的问一下,jrex的jar包去哪里下,我怎么到处搜都是无效的链接...悲剧啊
      

  8.   

    http://collect.dreamrunner.org/02/42
    这篇文章看对你有没有帮助
      

  9.   

    package httpunit;import java.io.File;
    import java.io.FileOutputStream;
    import java.io.IOException;
    import java.io.InputStream;
    import java.io.OutputStream;
    import java.net.MalformedURLException;
    import java.util.List;
    import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
    import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
    import com.gargoylesoftware.htmlunit.ScriptResult;
    import com.gargoylesoftware.htmlunit.WebClient;
    import com.gargoylesoftware.htmlunit.html.HtmlOption;
    import com.gargoylesoftware.htmlunit.html.HtmlPage;
    import com.gargoylesoftware.htmlunit.html.HtmlSelect;public class WorldBankCrawl { private static String TARGET_URL = "http://odds.500wan.com/fenxi/yazhi_same.php?cid=5&cp=平手/半球&id=384285&s1=0.800&s2=0.960"; public static void main(String[] args)
    throws FailingHttpStatusCodeException, MalformedURLException,
    IOException {
    // 模拟一个浏览器
    WebClient webClient = new WebClient();
    // 设置webClient的相关参数
    webClient.setJavaScriptEnabled(true);
    webClient.setCssEnabled(false);
    webClient.setAjaxController(new NicelyResynchronizingAjaxController());
    webClient.setTimeout(35000);
    webClient.setThrowExceptionOnScriptError(false);
    // 模拟浏览器打开一个目标网址
    HtmlPage rootPage = webClient.getPage(TARGET_URL); rootPage.save(new File("/home/share/Test"));
    }
    }将文件html存储在本地 然后在解析 就OK 了
      

  10.   

    HttpUnit地址
    http://sourceforge.net/projects/htmlunit/?source=dlp