网上的PHP采集程序资料也不少。但是一个问题一直没弄清楚:
如果是买的服务器空间,那么,PHP采集程序要实现采集的功能必然要先运行,如果所有的实现代码都在.php文件中,那么,如果没有人访问这个php文件(或是在别的文件中包含后运行),那么,用来实现采集的代码就不会运行,自然采集也就成了无稽之谈。我的困惑在于:怎么使采集程序自动运行起来呢?比如,我想要程序每天16:00到17:00这个时间段内自动采集,如果有人访问,那么很明显到这不是一个问题;问题是,如果没有人访问呢,在这种情况下,怎么来保证即使没有认为触发(用户点击),在一个特定到时间(这里是16:00-17:00),采集程序也能运行无碍。
如果是一个exe程序这就很简单了:开机启动、监视、触发?采集。对于一个已经有个定访问量的网站来说,这也不是个问题——在时间段内总是有人会触发的,如果这个网站才挂上呢?这是网站还没有多上流量,很可能没有用户触发采集程序,那采集不就成了摆设。

解决方案 »

  1.   

    http://www.singlestudio.net.cn/
    做个实时搜索好了。
    只要做得好一点,一般人看不出来是从其它网站采集的。
      

  2.   

    不是这样的,还是说小说网站。
    有个人(注意是个人)开了个小说站A。程序好了,数据库也好了。他有自己的工作(不是管理小说站),没有时间自己添加小说,也不想做个frame来外链,还不想每次用户看书都要去别人那里及时找。他想这样,如果在自己的库里没有用户要看的小说,那么程序要自动找小说,并充实自己的仓库。这样,下次用户来找这本小说,自己的库里就有了。但这样一是速度受影响(第一次找时),二是呆板(如果想弄个什么小说推荐之类的就不行了,因为 程序可不知道这个小说火不火),像baidu,google之类的,不可能等到用户输入的时候才去找东西吧,那baidu有第一个用户的时候,不是找什么就得等到死。小说站的主人想程序在无人访问的时候也能自己去找点小说来充门面,而不是死在那里不动,像个懒虫一样。他想它勤快一点。
      

  3.   

    你这个,的确需要本地数据库了。
    可以先去其他网站爬,收录到本地,当用户搜不到,通知管理员人工搜录。
    最好用VC而非PHP来采集。
      

  4.   

    你这个,的确需要本地数据库了。
    可以先去其他网站爬,收录到本地,当用户搜不到,通知管理员人工搜录。
    最好用VC而非PHP来采集。
      

  5.   

    看服务器的权限吧,cronjob 可实现。
      

  6.   

    connection_aborted,connection_status(), ignore_user_abort(). 
    register_shutdown_function
    set_time_limit(0),curl利用这些,就只需要最开始执行一次该页面,然后关闭浏览器。只要服务器不重起,那它就会一直运行下去,也不会因为一直采集而资源占用太多