各位,我有10万个左右的关键字,每天定时搜索他在百度上的排名。
代码就是取数据库中的id,然后去百度获取排名,这个步骤已经完成。  现在碰到的问题:如果采用服务器上cron job (服务器只能提供3个) 定时执行php文件,但是感觉太慢,一个小时只能处理1000个关键字,不能满足我的需求。我现在是通过在IE浏览器上开多个窗口来采集数据,
seo.******.com/collect.php?nd=1&start=1&end=4000
seo.******.com/collect.php?nd=1&start=4001&end=8000
但是这样是人工的,觉得比较繁琐。对于每天这么大的数据量,大家有什么高见。 

解决方案 »

  1.   

    我有个办法,省时省力:
    1.把php 的执行时间设置无限
    2.使用傲游浏览器,定时刷新页面。这样找台windows机器就可以了。
      

  2.   

    把你需要采集的关键字放进数据库表列,然后用cron或者shell程序,序列化时间进行采集工作。
      

  3.   

    我采过。采过上千万的数据。在本地或服务器写php程序。(服务上有些不安全)
    程序有生成对方网站当前页各目录连接地址、内容地址。然后使用爬虫(可设多线程等。定时运行这爬虫)工具每天把你这个php程序。
    爬虫会顺着你程序连接爬到完为止。
      

  4.   

    只想说两点:在服务器上执行这样程序不好,固定IP固定频率会被百度关黑屋子的。10w 关键字, 应采用多线程, 可PHP对多线程支持不好,curl_multi凑合着用。
      

  5.   

    所以建议本地采。曾经采google的数据。本地的IP都封我的。最后弄几个代理来采。封了就切换。