1.采集的数据有上千万 ,如果在采集的过程中,被中断了 ,还能从被中断的地方继续采集(我的想法是 把采集进度写入到一个文件里,下次采集前先查询一下文件里的内容 )2.怎么能让数据采集的更快一些  (我是用的多线程 感觉不是太快)
我想知道还有更好的解决方法嘛?     
还有就是有一些数据他还会继续更新  我想弄成时时采集  是不是直接用  定时器 ?

解决方案 »

  1.   

    写了半天,全丢了,这次简单点。1、采集地址url森林逐步构造。不可删除,已加入的置标。此一部分为一中控任务分发服务器。
    2、加一堆采集服务器去任务分发服务器领任务。多线程。
    3、不采大文件。
    4、不缓存。
    5、线程限时结束。
    6、任务可重采,用来防止意外中止。
    7、任务产生的新url可向,本机内存森林hash表进行验证,不存在时,向中控任务分发服务器中发送。中控服务器再次验证后生成任务,定时分送已经存在的森林hash表。以上,是我的采集系统的设计,概设中还没动手,共同学习。
      

  2.   

    我想问下 想采集的内容被加密了 怎么弄 他内容 都变成类似这样的代码在
      

  3.   

    是Unicode编码  正在转成汉字中..
      

  4.   

    这种非标准页没办法,一般也不是什么正规的站不采也行。非要处理就只能单独加,搞个特殊url和,处理方式对照表。