如果真的要采集,并且数据大的话,就用fsockopen等东西,不用file_get_contents这种函数,一次性存入内存是很慢的。楼上的Curl更好。

解决方案 »

  1.   

    应该区别不太,可能是服务器有一些复杂处理:如重定向等
    1、我的测试程序所在的网站也用的是utf-8的字符集,请问大虾怎么解决这个问题啊?!!
    不影响,但如果编码不同的要转码2. 另外,还请问一下像GG,baidu爬虫采集数据也是用这样的方法吗,有没有更好的数据采集的方法啊?!!GG,baidu这个应是 socket编编程,这也是比较底层的请求方式,其次是充分利用http协议
      

  2.   

    我看了两个网站使用字符集不一样,采集快的用的是gb2312,采集很慢的用的是utf-8--应该不是编码的问题,服务器带宽,页面大小都有关系吧?.
      

  3.   

    用curl吧
    而且它可以带cookie 去抓取,如果需要登录,还是用的着的
      

  4.   

    curl是专用的,file_get_content是区分协议做的wrap,不像curl那么专注。
      

  5.   


    多谢楼上各位,用curl试过了,还是有同样的问题啊?!!奇怪的是我在本地测试时速度就很快,传到服务器上就很慢了,难道和服务器配置有关系?
      

  6.   

    1 ssh登录到服务器,然后ping下那个网站,看看响应时间。你本地访问那个网站快,并不代表你的服务器访问也快。
    2 网站爬虫的采集方法中用到的算法可比这个复杂多了。不是一两句话就能说清楚的。
      

  7.   

    你用的虚拟空间跟采集目标之间的网络有问题
    会不会是传说中的 `电信 vs 网通` 问题呢 XD