最近在研究php采集程序采集过程就是获取数据,再处理数据,最后入库个人觉得排除重复数据入库最耗费服务器资源,大家觉得呢??

解决方案 »

  1.   

    楼主这个问题,几乎可以肯定不会有明确唯一的答案。跟具体的业务内容有关。采集时的网络流量、采到数据后的处理、写数据库、甚至存储容量,都可能成为瓶颈。我做过的一个抓网页的程序,也算是采集吧,并发百八十个 HTTP Request 就把网络拥爆了。
    ————————————————————————————————
    基于CSDN论坛提供的插件扩展功能,自己做了个签名档工具,分享给大家,欢迎技术交流 :)
      

  2.   

    file_get_contents function会很耗网络资源,
    preg_match_all and preg_replace function 耗CPU资源,而且不是一般的耗CPU,你自己可以去模拟计算时间
      

  3.   

    我感觉是下载的时候占cpu多啊