刚入手网络爬虫,抓取猫眼论坛这个网站,主页面的帖子URL,标题,作者都取到了,但是利用每个帖子的URL获取超链接里面的内容时出了问题,获取到的页面缺少很多内容,头部尾部都有,但是看中间的内容和浏览器上审查出来的代码很多不匹配,获取论坛首页的时候就没有这个问题还有就是我用Jsoup直接解析这个网站会报很多Unkown Source的错误,用原生的URL一步步解析才可以下面是主要代码
Document doc = Jsoup.parse(content);
//获取主要页面部分
Elements eles = doc.getElementsByClass("list-table");
String content_links = "";
//获取所有tr
Elements articles =  eles.get(0).getElementsByTag("tr");
for(int i=1 ;i<articles.size();i++){

//帖子URL
String links = articles.get(i).getElementsByTag("a").attr("abs:href"); 
content_links = links;
System.out.println(links);

//取得标题
String title = articles.get(i).getElementsByTag("a").get(1).text();
System.out.println(title);

//取得作者
String author = articles.get(i).getElementsByClass("author").text();
System.out.println(author);

//根据超链接获取其中网页里的内容  content2


    Document doc3 = Jsoup.connect(content_links).get();
    System.out.println(doc3.toString());


URL url2 = new URL(content_links);
URLConnection conn2 = url2.openConnection();
conn2.connect();
br2 = new BufferedReader(new InputStreamReader(conn2.getInputStream()));
String line2;
String content2 = "";

while((line2 = br2.readLine()) != null){
//便利抓取到的每一行并将其存储到result里面
//System.out.println(line2);
content2 += line2;
/