老师要做一个项目,需要我们根据已有的开源爬虫改进,从而实现以下功能:
1.增量式爬取
判断是否为已爬过的内容;
(把已爬过网页的网址保存成索引文件,方便下一次爬的时候进行比对。若网址及内容都相同,则不必写入磁盘;反之则爬取新的内容)2.记录爬取网站的路径3.反应所爬取网站的更新内容的日期4.爬取后存储的文件名根据时间命名5.边爬边生成html6.能扩展实现分布式不知道哪些开源爬虫更适合利用呢?感觉heritrix和nutch都太大了,不好改~ 不知道有没有小的好改一点的爬虫
另外希望大侠们能给我一点意见,学习爬虫看哪些书或者资料比较好?感觉我还处于没入门的状态,只能慢慢自学。。
1.增量式爬取
判断是否为已爬过的内容;
(把已爬过网页的网址保存成索引文件,方便下一次爬的时候进行比对。若网址及内容都相同,则不必写入磁盘;反之则爬取新的内容)2.记录爬取网站的路径3.反应所爬取网站的更新内容的日期4.爬取后存储的文件名根据时间命名5.边爬边生成html6.能扩展实现分布式不知道哪些开源爬虫更适合利用呢?感觉heritrix和nutch都太大了,不好改~ 不知道有没有小的好改一点的爬虫
另外希望大侠们能给我一点意见,学习爬虫看哪些书或者资料比较好?感觉我还处于没入门的状态,只能慢慢自学。。
解决方案 »
免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货