本帖最后由 xroha 于 2015-03-07 15:57:23 编辑

解决方案 »

  1. cvm
  2. header返回的信息也没有看到什么不同,现在抓取会302,不知道百度是怎么判断的。
      

  3. http://1.epzuzu.sinaapp.com/curl.phpSAE上抓取后返回的信息
      

  4. 百度感知到你的IP访问频率很可疑
    要么就是有复杂的cookie验证流程
      


  5. 更换过不同IP的服务器,也使用curl 伪造了IP,感觉应该不是IP被限制了。
    复杂的COOKIE验证到有可能,但是这个复杂有破解码?
    到底是一种什么流程?
      

  6. 1.如果本地可以,服务器不行。程序是没有问题的。
    2.SAE,阿里云,商务中国的空间
    这些都支持curl吗,有试试采集其他地址吗?
    3.有可能这段时间这些服务器都采集百度,所以被屏蔽掉了。
      


  7. 1,确实是本地可以,服务器不可以。
    2,尝试过不同IP的服务器,确定都支持curl,可以抓取到页面,但是无法获取到正确的页面数据。
    3,如果真是这些服务器的IP都被百度屏蔽了,那只能说太巧。
      

  8. $content = file_get_contents('http://jingyan.baidu.com/article/e2284b2b24eeb2e2e6118dfd.html');
    preg_match('/<div\sclass="content-listblock-text">(.*)<\/div>/Uis',$content,$arr);
    header('Content-type:text/html;charset=utf8');
    print_r($arr[1]);