1.采集的数据有上千万 ,如果在采集的过程中,被中断了 ,还能从被中断的地方继续采集(我的想法是 把采集进度写入到一个文件里,下次采集前先查询一下文件里的内容 )2.怎么能让数据采集的更快一些 (我是用的多线程 感觉不是太快)
我想知道还有更好的解决方法嘛?
还有就是有一些数据他还会继续更新 我想弄成时时采集 是不是直接用 定时器 ?
我想知道还有更好的解决方法嘛?
还有就是有一些数据他还会继续更新 我想弄成时时采集 是不是直接用 定时器 ?
2、加一堆采集服务器去任务分发服务器领任务。多线程。
3、不采大文件。
4、不缓存。
5、线程限时结束。
6、任务可重采,用来防止意外中止。
7、任务产生的新url可向,本机内存森林hash表进行验证,不存在时,向中控任务分发服务器中发送。中控服务器再次验证后生成任务,定时分送已经存在的森林hash表。以上,是我的采集系统的设计,概设中还没动手,共同学习。