我对一些网站采集时我发现  我既然没采集到.代码没问题.大家不要往这方面想了. 应该是网站防采集了 . 我不知道要怎么分析.  反采集技术有哪些 ? 要怎么分析防采集的网站?

解决方案 »

  1.   

            $ch = curl_init();
    curl_setopt($ch , CURLOPT_URL,'http://www.4yt.net/read.aspx?ChapterID=743902');
    curl_setopt($ch , CURLOPT_RETURNTRANSFER,true);
    $page=curl_exec($ch);
    $f = fopen('pa.txt','w');

    fwrite($f , $page);这个小说网站的内容不见了. 内容指的是 小说内容
      

  2.   

    人家要是防还是能防的基本的仍是模仿浏览器,但如果你模仿不了,人家就能防你。curl再强,也强不过浏览器。
      

  3.   

    你看看他的内容加载顺序就知道了!内容时候通过js加载进来的!!多学学用firebug!
      

  4.   

    采集过一个小说网,页面是js生成的,只要采集那个js,然后析出数据即可。
      

  5.   

    http://script.4yt.net/html/js/743902.js这不算太难的防采集法,至少没加密
      

  6.   

    不过如果它动态加密,且动态密钥,你基本上采不了。
    比如discuz的加密函数你首先要采集密钥,然后再能解密。
      

  7.   


    可是好像专门用来采集DISCUZ的软件还比较多
      

  8.   


    $url = "http://www.4yt.net/Read.aspx?ChapterID=790873";
    $ch = curl_init();
      curl_setopt($ch, CURLOPT_URL, $url);
      curl_setopt($ch, CURLOPT_REFERER, $url);
      curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);
      curl_setopt($ch, CURLOPT_HEADER, 1);
      curl_setopt($ch, CURLOPT_NOBODY, 0);
      curl_setopt($ch, CURLOPT_TIMEOUT, 10);
      curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
      curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); // 允许自动跳转
      $contents = curl_exec($ch);
      curl_close($ch);
      echo $contents;完全可以抓取,只要模拟浏览器就行了。
    以上代码 验证通过。