我想从指定的一个网页上去抓取某部分的信息,而这个信息只是一个标题,我如何根据这个标题的URL去抓取这个标题的详细内容?比如,我想抓取CSDN首页上的某条新闻,而这个新闻在首页上显示的只是个标题,我如何根据这个标题的URL进一步的去抓取更加详细的内容

解决方案 »

  1.   

    首先你应该设置一个隐藏域属性hidden,例如设置为id把,传递到相应的控制器,然后根据id的不同,从数据库里面得到相应的详细信息!
      

  2.   

    package com.ysg;import java.io.BufferedReader;
    import java.io.InputStream;
    import java.io.InputStreamReader;
    import java.net.URL;public class GetUrlContent { public static String getUrlTheContent(String aimurl) {
    try {
    URL url = new URL(aimurl);
    // 设置代理
    // String proxy = "10.165.2.1:8080";
    System.setProperty("proxySet", "true");
    System.setProperty("proxyHost", "192.165.2.1");
    System.setProperty("proxyPort", "8080"); InputStream is = url.openStream(); BufferedReader bi = new BufferedReader(new InputStreamReader(is)); String str = "";
    String returnstr = "";
    while ((str = bi.readLine()) != null) {
    returnstr += str;
    }
    if (str == null)
    str = "nodata";
    return returnstr;
    } catch (Exception e) {
    System.out.println("-----------Error----------" + e.getMessage());
    return "error";
    }
    }
    }
      

  3.   

    不是很难吧。
    首先是找个 读取URL 内容的源码。
    再 写出读取 <title></title> 内容的正则表达式。
    边读取文件,边找出含有这个正则的内容就是标题了!