项目要用到爬虫技术取别的网站的资料...求各位用过的童鞋推荐些好的开源技术研究下...先谢谢大家了

解决方案 »

  1.   

    HtmlParser
    提供了很多方式抓取网页,不过爬虫程序还是需要自己写
      

  2.   

     Heritrix 这个是开源的
      

  3.   

    nutch1.0就行,一个开源的web搜索引擎,完全开源。nutch包括爬虫crawler和查询searcher两个部分。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。有兴趣可以看一看