菜鸟求助，用JAVA如何获取动态加载的网页内容

我想用JAVA获取到截图部分的HTML代码。JSP怎么获取，能否给个案例。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

想将整个文件全部读取进来，然后通过DOM4J解析，找到想要的节点即可。
我的思路也是把所有都读进来，但后面的方法比较挫，我写了一些正则表达式来匹配，但是目前的
问题就是不知道用什么方法把整个文件读进来，我目前的那段代码只能读到
<tr id="lodingtr"><td colspan="12">数据加载中，请稍候....</td></tr>这个东西，读不到实际的内容。
TO scottxzj:有没有比较好用的，推荐一个。
我的思路也是把所有都读进来，但后面的方法比较挫，我写了一些正则表达式来匹配，但是目前的
问题就是不知道用什么方法把整个文件读进来，我目前的那段代码只能读到
<tr id="lodingtr"><td colspan="12">数据加载中，请稍候....</td></tr>这个东西，读不到实际的内容。
这个其实我在作毕业设计的时候做过，当时做的是网络爬虫部分。
网络爬虫也只能爬取静态的页面。对于这种ajax的网页，当时我采取的思路是采用java浏览器，先加载ajax的网页信息，然后读取浏览器中的html代码。思路就是这样。
java浏览器当时用的是jrex。可以作为思路参考下，当时是完全实现了的，要实现你的功能应该没问题的。
jericho-html-3.2.jar  我原来用的是这个，不知道现在有没有新的包了
可以提供点代码参考下吗？
顺便弱弱的问一下，jrex的jar包去哪里下，我怎么到处搜都是无效的链接...悲剧啊
http://collect.dreamrunner.org/02/42
这篇文章看对你有没有帮助
package httpunit;import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.MalformedURLException;
import java.util.List;
import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.ScriptResult;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlOption;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlSelect;public class WorldBankCrawl { private static String TARGET_URL = "http://odds.500wan.com/fenxi/yazhi_same.php?cid=5&cp=平手/半球&id=384285&s1=0.800&s2=0.960"; public static void main(String[] args)
throws FailingHttpStatusCodeException, MalformedURLException,
IOException {
// 模拟一个浏览器
WebClient webClient = new WebClient();
// 设置webClient的相关参数
webClient.setJavaScriptEnabled(true);
webClient.setCssEnabled(false);
webClient.setAjaxController(new NicelyResynchronizingAjaxController());
webClient.setTimeout(35000);
webClient.setThrowExceptionOnScriptError(false);
// 模拟浏览器打开一个目标网址
HtmlPage rootPage = webClient.getPage(TARGET_URL); rootPage.save(new File("/home/share/Test"));
}
}将文件html存储在本地然后在解析就OK 了
HttpUnit地址
http://sourceforge.net/projects/htmlunit/?source=dlp