求助大神！用Jsoup抓取网页只能抓取一部分

刚入手网络爬虫，抓取猫眼论坛这个网站，主页面的帖子URL，标题，作者都取到了，但是利用每个帖子的URL获取超链接里面的内容时出了问题，获取到的页面缺少很多内容，头部尾部都有，但是看中间的内容和浏览器上审查出来的代码很多不匹配，获取论坛首页的时候就没有这个问题还有就是我用Jsoup直接解析这个网站会报很多Unkown Source的错误，用原生的URL一步步解析才可以下面是主要代码
Document doc = Jsoup.parse(content);
//获取主要页面部分
Elements eles = doc.getElementsByClass("list-table");
String content_links = "";
//获取所有tr
Elements articles =  eles.get(0).getElementsByTag("tr");
for(int i=1 ;i<articles.size();i++){

//帖子URL
String links = articles.get(i).getElementsByTag("a").attr("abs:href");
content_links = links;
System.out.println(links);

//取得标题
String title = articles.get(i).getElementsByTag("a").get(1).text();
System.out.println(title);

//取得作者
String author = articles.get(i).getElementsByClass("author").text();
System.out.println(author);

//根据超链接获取其中网页里的内容  content2

    Document doc3 = Jsoup.connect(content_links).get();
    System.out.println(doc3.toString());

URL url2 = new URL(content_links);
URLConnection conn2 = url2.openConnection();
conn2.connect();
br2 = new BufferedReader(new InputStreamReader(conn2.getInputStream()));
String line2;
String content2 = "";

while((line2 = br2.readLine()) != null){
//便利抓取到的每一行并将其存储到result里面
//System.out.println(line2);
content2 += line2;
/

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

最后获取到的content2里内容和超链接里的网页不太匹配
这么写不行的，这个帖子上可以http://www.wityx.com/bbs/post/288_1_1.html

求助大神！ 用Jsoup抓取网页只能抓取一部分

解决方案 »

求助大神！用Jsoup抓取网页只能抓取一部分