解决方案 »

  1.   

    自己做demo爬些文本数据很简单,就像你说的网上很多demo都可以。 
    不过建议你用Jsoup, 当你拿到网页Html内容以后,Jsoup帮你构建出一个Dom树,你可以像在浏览器中使用jquery那样把你想要的一些标签里的内容拿出来。 我之前做过一个定时爬取财经新闻的demo,配合lucene中文分词还做了全文检索功能, 如果你需要我可以发给你。
      

  2.   

    谢谢指点,我研究下Jsoup,那个Demo发到[email protected]邮箱吧
      

  3.   

    我就是想把一个博客里面所有的文章都抓取下来,如果能够根据他的标签或者文章的内容分类存到文件里面更好了,然后放到Kindle里面看
      

  4.   

    也给我来一份吧
    [email protected]
      

  5.   

    那么你就浏览器模拟先看看 ,需要的url 参数等等。int j = 0;
    for (int i = 11; i < 13; i++) {
    String urlString = "http://mall.jumei.com/products/0-19-0-11-" + i+
    ".html";
    URL url = new URL(urlString);
    URLConnection con = url.openConnection();
    InputStream is = con.getInputStream();
    byte[] bs = new byte[1024];
    int len;
    StringBuffer sb = new StringBuffer();
    while ((len = is.read(bs)) != -1) {
    sb.append(new String(bs, 0, len));
    }
    is.close();
    String content = sb.toString();
    Matcher m =
    Pattern.compile("(?s)<div class=\"num_warp_list_name\">(.*?)</div>.*?<span style=\"font-size:18px; font-weight:bolder; color:#ed145b;\">(.*?)</span").matcher(content);
    while (m.find()) {
    j++;
    System.out.println(m.group(1).replaceAll("\\s",
    "").replaceAll("<a.*?>(.*?)</a>",
    "$1")+"--->第"+j+"个------->"+m.group(2).replace("&yen;", "¥"));
    }
    }
      

  6.   

    http 模拟然后 io流操作 写数据  。
      

  7.   

    谢谢指点,我研究下Jsoup,那个Demo发到[email protected]邮箱吧也给我来一份吧
    [email protected]
    好的, 等下班了回去发
      

  8.   

    谢谢指点,我研究下Jsoup,那个Demo发到[email protected]邮箱吧也给我来一份吧
    [email protected]
    好的, 等下班了回去发
    QQQ
      

  9.   


    jsoup确实好用,用他来总确实可行,给我一份可好,[email protected]
      

  10.   


    小弟才入行学习新知识,求大哥源码来学习学习呀。[email protected]
      

  11.   

    我公司有专门的后台爬虫 能24小时爬取  bbs 论坛 博客 新闻 电子报 视频 很强大  可惜我不会
      

  12.   

    大神,求转发呀,先谢过了啊 [email protected]
      

  13.   


    小弟才入行学习新知识,求大哥源码来学习学习呀。[email protected]同求。 [email protected]
    我上传到csdn了http://download.csdn.net/download/whos2002110/7687985, 有需要的自己下载好了。  有问题的可以在我csdn博客留言。
      

  14.   


    小弟才入行学习新知识,求大哥源码来学习学习呀。[email protected]同求。 [email protected]
    我上传到csdn了http://download.csdn.net/download/whos2002110/7687985, 有需要的自己下载好了。  有问题的可以在我csdn博客留言。这个链接http://download.csdn.net/detail/whos2002110/7688007