最近采集一个网站,采集不了他的产品,但是我不知道他用了什么防采集的技术?求指教
http://www.leisurelakesbikes.com/  怎样才能采集到他呢?

解决方案 »

  1.   

    不知道你要采集什么内容,图片之类的可能用了防盗链,在你发送的访问请求中伪造Referer,伪造不是很难,你可以搜索一下相关资料很多的。
      

  2.   

    我file_get_contents CURL都试过 你说的伪造Referer应该是这句吧。
    curl_setopt($ch, CURLOPT_REFERER, "http:\/\/www.leisurelakesbikes.com\/");
    这个也采不到 我看采来的网页 他就是产品采不到 目录那些可以采集到,搞不明白啊 
      

  3.   

    完整构建一个HTTP请求吧,只要IE能访问,肯定能采集。
      

  4.   


    $url='http://www.leisurelakesbikes.com/product/specializedtransitioncompracingbike2011.aspx?&id=16728';
    $curl=curl_init($url);
    curl_setopt($curl,CURLOPT_AUTOREFERER,1);
    curl_setopt($curl,CURLOPT_RETURNTRANSFER,1);
    $html=curl_exec($curl);
    echo $html;
      

  5.   

    整个网页几乎都包含在一个hidden form里面,你留意一下,估计用了ajax和session
      

  6.   


    求举例,CURL吗?还是SOCKET,如何才能构建
    完整的构建一个HTTP请求
      

  7.   


    你的意思是  我从一个页到另外一个页面时,跳转时session也提交上去
      

  8.   

    直接用http访问也是不行的,直接用get的方法得到的是页面返回的html代码,如果有些东西是html执行完之后通过js或者ajax输出到网页上的话 是采集不到的。比如我的一个站点所有静态页面的菜单都是通过js写到页面上的 源代码是看不到菜单的内容的,想采集执行后的内容需要调用 IHTMLDocument2 接口来获取,
    IHTMLDocument2 获取到的内容是所有js和ajax执行完后的内容。但是用php怎么接IHTMLDocument2我不清楚,我的采集都是用c++写的
      

  9.   

    js和ajax执行完后的内容,可以延时几秒等ajax执行完 再取数据