求java开源网络爬虫 - 调试易

求java开源网络爬虫

项目要用到爬虫技术取别的网站的资料...求各位用过的童鞋推荐些好的开源技术研究下...先谢谢大家了

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

HtmlParser
提供了很多方式抓取网页，不过爬虫程序还是需要自己写
Heritrix 这个是开源的
nutch1.0就行，一个开源的web搜索引擎，完全开源。nutch包括爬虫crawler和查询searcher两个部分。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引，所以除去索引部分，两者之间的耦合度很低。有兴趣可以看一看