各位,我有10万个左右的关键字,每天定时搜索他在百度上的排名。
代码就是取数据库中的id,然后去百度获取排名,这个步骤已经完成。 现在碰到的问题:如果采用服务器上cron job (服务器只能提供3个) 定时执行php文件,但是感觉太慢,一个小时只能处理1000个关键字,不能满足我的需求。我现在是通过在IE浏览器上开多个窗口来采集数据,
seo.******.com/collect.php?nd=1&start=1&end=4000
seo.******.com/collect.php?nd=1&start=4001&end=8000
但是这样是人工的,觉得比较繁琐。对于每天这么大的数据量,大家有什么高见。
代码就是取数据库中的id,然后去百度获取排名,这个步骤已经完成。 现在碰到的问题:如果采用服务器上cron job (服务器只能提供3个) 定时执行php文件,但是感觉太慢,一个小时只能处理1000个关键字,不能满足我的需求。我现在是通过在IE浏览器上开多个窗口来采集数据,
seo.******.com/collect.php?nd=1&start=1&end=4000
seo.******.com/collect.php?nd=1&start=4001&end=8000
但是这样是人工的,觉得比较繁琐。对于每天这么大的数据量,大家有什么高见。
1.把php 的执行时间设置无限
2.使用傲游浏览器,定时刷新页面。这样找台windows机器就可以了。
程序有生成对方网站当前页各目录连接地址、内容地址。然后使用爬虫(可设多线程等。定时运行这爬虫)工具每天把你这个php程序。
爬虫会顺着你程序连接爬到完为止。