关于网站数据采集问题

如果真的要采集，并且数据大的话，就用fsockopen等东西，不用file_get_contents这种函数，一次性存入内存是很慢的。楼上的Curl更好。

应该区别不太，可能是服务器有一些复杂处理：如重定向等
1、我的测试程序所在的网站也用的是utf-8的字符集，请问大虾怎么解决这个问题啊？！！
不影响，但如果编码不同的要转码2. 另外，还请问一下像GG，baidu爬虫采集数据也是用这样的方法吗，有没有更好的数据采集的方法啊？！！GG，baidu这个应是 socket编编程，这也是比较底层的请求方式，其次是充分利用http协议
我看了两个网站使用字符集不一样，采集快的用的是gb2312，采集很慢的用的是utf-8--应该不是编码的问题,服务器带宽,页面大小都有关系吧?.
用curl吧
而且它可以带cookie 去抓取，如果需要登录，还是用的着的
curl是专用的，file_get_content是区分协议做的wrap，不像curl那么专注。
多谢楼上各位，用curl试过了，还是有同样的问题啊？！！奇怪的是我在本地测试时速度就很快，传到服务器上就很慢了，难道和服务器配置有关系？
1 ssh登录到服务器，然后ping下那个网站，看看响应时间。你本地访问那个网站快，并不代表你的服务器访问也快。
2 网站爬虫的采集方法中用到的算法可比这个复杂多了。不是一两句话就能说清楚的。
你用的虚拟空间跟采集目标之间的网络有问题
会不会是传说中的 `电信 vs 网通` 问题呢 XD