网址是:https://www.macys.com/shop/womens-clothing/womens-tops/Pageindex,Productsperpage,Sortby/3,120,BEST_SELLERS?id=255
对于采集本人应该说十分熟悉,但是这个网址的采集,不知道为啥就是搞不定,什么cookie,ua啥的都弄了,就是采集不到。但是浏览器访问就正常,应该是这个网站有什么方法能区分出来是浏览器访问还是程序访问。
现金求助,加我QQ:332439180

解决方案 »

  1.   

    不知道你那么熟悉的采集神器,能不能设置header.可以伪装为浏览器试试
    例如:Referer,User-Agent
      

  2.   

    添加cookie,然后伪造浏览器访问和http来路,就可以获取到数据了
      

  3.   

    因为你的链接是https,涉及证书,curl获取要设置
    curl_setopt($curl,CURLOPT_SSL_VERIFYPEER,0);//对认证证书来源的检查
    curl_setopt($curl,CURLOPT_SSL_VERIFYHOST,1);//从证书中检查SSL加密算法是否存在
      

  4.   

    简单看了下,使用curl模拟过浏览器和cookie并且跳过什么鬼的验证,但是还是无法访问这个东西,具体的抽时间再看下吧,有结果的话会更新回答的
      

  5.   

    可以试试 selenium 调用/模拟真实浏览器访问
      

  6.   

    curl_error()
    curl_getinfo()
      

  7.   

    代码我就不写了,说一下我曾经遇到的这种情况。有些网站referer必须和抓取地址的域名一致。楼主可以在header里设置一下referer试试