反采集技术有哪些 "? 我采集既然失败了啊.当然代码没问题. 是网站防采集了

我对一些网站采集时我发现我既然没采集到.代码没问题.大家不要往这方面想了. 应该是网站防采集了 . 我不知道要怎么分析. 反采集技术有哪些 ? 要怎么分析防采集的网站?

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

        $ch = curl_init();
curl_setopt($ch , CURLOPT_URL,'http://www.4yt.net/read.aspx?ChapterID=743902');
curl_setopt($ch , CURLOPT_RETURNTRANSFER,true);
$page=curl_exec($ch);
$f = fopen('pa.txt','w');

fwrite($f , $page);这个小说网站的内容不见了. 内容指的是小说内容
人家要是防还是能防的基本的仍是模仿浏览器，但如果你模仿不了，人家就能防你。curl再强，也强不过浏览器。
你看看他的内容加载顺序就知道了！内容时候通过js加载进来的！！多学学用firebug!
采集过一个小说网，页面是js生成的，只要采集那个js，然后析出数据即可。
http://script.4yt.net/html/js/743902.js这不算太难的防采集法，至少没加密
不过如果它动态加密，且动态密钥，你基本上采不了。
比如discuz的加密函数你首先要采集密钥，然后再能解密。
可是好像专门用来采集DISCUZ的软件还比较多
$url = "http://www.4yt.net/Read.aspx?ChapterID=790873";
$ch = curl_init();
  curl_setopt($ch, CURLOPT_URL, $url);
  curl_setopt($ch, CURLOPT_REFERER, $url);
  curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);
  curl_setopt($ch, CURLOPT_HEADER, 1);
  curl_setopt($ch, CURLOPT_NOBODY, 0);
  curl_setopt($ch, CURLOPT_TIMEOUT, 10);
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
  curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); // 允许自动跳转
  $contents = curl_exec($ch);
  curl_close($ch);
  echo $contents;完全可以抓取，只要模拟浏览器就行了。
以上代码验证通过。

反采集技术有哪些 "? 我采集 既然失败了啊.当然代码没问题. 是网站防采集了

解决方案 »

反采集技术有哪些 "? 我采集既然失败了啊.当然代码没问题. 是网站防采集了