求助:Java怎么样实现爬虫,抓取博客里面的所有文章,希望指点下该从哪里学习,推荐一些书籍之类的 爬虫java博客 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 自己做demo爬些文本数据很简单,就像你说的网上很多demo都可以。 不过建议你用Jsoup, 当你拿到网页Html内容以后,Jsoup帮你构建出一个Dom树,你可以像在浏览器中使用jquery那样把你想要的一些标签里的内容拿出来。 我之前做过一个定时爬取财经新闻的demo,配合lucene中文分词还做了全文检索功能, 如果你需要我可以发给你。 谢谢指点,我研究下Jsoup,那个Demo发到[email protected]邮箱吧 我就是想把一个博客里面所有的文章都抓取下来,如果能够根据他的标签或者文章的内容分类存到文件里面更好了,然后放到Kindle里面看 也给我来一份吧[email protected] 那么你就浏览器模拟先看看 ,需要的url 参数等等。int j = 0; for (int i = 11; i < 13; i++) { String urlString = "http://mall.jumei.com/products/0-19-0-11-" + i+ ".html"; URL url = new URL(urlString); URLConnection con = url.openConnection(); InputStream is = con.getInputStream(); byte[] bs = new byte[1024]; int len; StringBuffer sb = new StringBuffer(); while ((len = is.read(bs)) != -1) { sb.append(new String(bs, 0, len)); } is.close(); String content = sb.toString(); Matcher m = Pattern.compile("(?s)<div class=\"num_warp_list_name\">(.*?)</div>.*?<span style=\"font-size:18px; font-weight:bolder; color:#ed145b;\">(.*?)</span").matcher(content); while (m.find()) { j++; System.out.println(m.group(1).replaceAll("\\s", "").replaceAll("<a.*?>(.*?)</a>", "$1")+"--->第"+j+"个------->"+m.group(2).replace("¥", "¥")); } } http 模拟然后 io流操作 写数据 。 谢谢指点,我研究下Jsoup,那个Demo发到[email protected]邮箱吧也给我来一份吧[email protected]好的, 等下班了回去发 谢谢指点,我研究下Jsoup,那个Demo发到[email protected]邮箱吧也给我来一份吧[email protected]好的, 等下班了回去发QQQ jsoup确实好用,用他来总确实可行,给我一份可好,[email protected] 小弟才入行学习新知识,求大哥源码来学习学习呀。[email protected] 我公司有专门的后台爬虫 能24小时爬取 bbs 论坛 博客 新闻 电子报 视频 很强大 可惜我不会 大神,求转发呀,先谢过了啊 [email protected] 小弟才入行学习新知识,求大哥源码来学习学习呀。[email protected]同求。 [email protected]我上传到csdn了http://download.csdn.net/download/whos2002110/7687985, 有需要的自己下载好了。 有问题的可以在我csdn博客留言。 小弟才入行学习新知识,求大哥源码来学习学习呀。[email protected]同求。 [email protected]我上传到csdn了http://download.csdn.net/download/whos2002110/7687985, 有需要的自己下载好了。 有问题的可以在我csdn博客留言。这个链接http://download.csdn.net/detail/whos2002110/7688007 在JSP页面调用JavaBean,出错!初学!求指导! jquery中,不管选择下拉列表哪一项,返回的值都是第一项的value值 jsp调用excel和word 我怎么连接不上Sql Server数据库,并且以前是对的 java文件操作问题 急! 救命阿~忙活一下午了 extjs 查询有结果,但是前台不显示,发生该错误可能是什么引起的 .JSP文件如何预览?? JSP的运行错误,请指正,是否为配置得问题... spring mvc 如何直接取得数组 大神帮忙!数据怎么在前台展示! GBK页面的表单post提交到UTF-8编码的servlet如何解决中文乱码问题??
不过建议你用Jsoup, 当你拿到网页Html内容以后,Jsoup帮你构建出一个Dom树,你可以像在浏览器中使用jquery那样把你想要的一些标签里的内容拿出来。 我之前做过一个定时爬取财经新闻的demo,配合lucene中文分词还做了全文检索功能, 如果你需要我可以发给你。
[email protected]
for (int i = 11; i < 13; i++) {
String urlString = "http://mall.jumei.com/products/0-19-0-11-" + i+
".html";
URL url = new URL(urlString);
URLConnection con = url.openConnection();
InputStream is = con.getInputStream();
byte[] bs = new byte[1024];
int len;
StringBuffer sb = new StringBuffer();
while ((len = is.read(bs)) != -1) {
sb.append(new String(bs, 0, len));
}
is.close();
String content = sb.toString();
Matcher m =
Pattern.compile("(?s)<div class=\"num_warp_list_name\">(.*?)</div>.*?<span style=\"font-size:18px; font-weight:bolder; color:#ed145b;\">(.*?)</span").matcher(content);
while (m.find()) {
j++;
System.out.println(m.group(1).replaceAll("\\s",
"").replaceAll("<a.*?>(.*?)</a>",
"$1")+"--->第"+j+"个------->"+m.group(2).replace("¥", "¥"));
}
}
[email protected]
好的, 等下班了回去发
[email protected]
好的, 等下班了回去发
QQQ
jsoup确实好用,用他来总确实可行,给我一份可好,[email protected]
小弟才入行学习新知识,求大哥源码来学习学习呀。[email protected]
小弟才入行学习新知识,求大哥源码来学习学习呀。[email protected]同求。 [email protected]
我上传到csdn了http://download.csdn.net/download/whos2002110/7687985, 有需要的自己下载好了。 有问题的可以在我csdn博客留言。
小弟才入行学习新知识,求大哥源码来学习学习呀。[email protected]同求。 [email protected]
我上传到csdn了http://download.csdn.net/download/whos2002110/7687985, 有需要的自己下载好了。 有问题的可以在我csdn博客留言。这个链接http://download.csdn.net/detail/whos2002110/7688007