反采集技术有哪些 "? 我采集 既然失败了啊.当然代码没问题. 是网站防采集了 我对一些网站采集时我发现 我既然没采集到.代码没问题.大家不要往这方面想了. 应该是网站防采集了 . 我不知道要怎么分析. 反采集技术有哪些 ? 要怎么分析防采集的网站? 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 $ch = curl_init(); curl_setopt($ch , CURLOPT_URL,'http://www.4yt.net/read.aspx?ChapterID=743902'); curl_setopt($ch , CURLOPT_RETURNTRANSFER,true); $page=curl_exec($ch); $f = fopen('pa.txt','w'); fwrite($f , $page);这个小说网站的内容不见了. 内容指的是 小说内容 人家要是防还是能防的基本的仍是模仿浏览器,但如果你模仿不了,人家就能防你。curl再强,也强不过浏览器。 你看看他的内容加载顺序就知道了!内容时候通过js加载进来的!!多学学用firebug! 采集过一个小说网,页面是js生成的,只要采集那个js,然后析出数据即可。 http://script.4yt.net/html/js/743902.js这不算太难的防采集法,至少没加密 不过如果它动态加密,且动态密钥,你基本上采不了。比如discuz的加密函数你首先要采集密钥,然后再能解密。 可是好像专门用来采集DISCUZ的软件还比较多 $url = "http://www.4yt.net/Read.aspx?ChapterID=790873";$ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_REFERER, $url); curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']); curl_setopt($ch, CURLOPT_HEADER, 1); curl_setopt($ch, CURLOPT_NOBODY, 0); curl_setopt($ch, CURLOPT_TIMEOUT, 10); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); // 允许自动跳转 $contents = curl_exec($ch); curl_close($ch); echo $contents;完全可以抓取,只要模拟浏览器就行了。以上代码 验证通过。 关于php面向对象的问题 如何获取淘宝客数据呢? 小弟 有个小问题 请大侠赐教 顺便送上70分 eclipsePHP3 有svn功能么?如何使用? 一次将两个属性拿出 内网如何设置用域名访问自己的php网站 dwt 提交给php问题 php Smarty模板的错误 在线求解! thinkphp里 表单提交数组的问题 php怎么将数组数组转化为json格式的数据 AppServ中如何配置CURL PHP的webservice中的POST何GET绑定如何实现。不需要举例SOAP绑定了,这个已经实现了。
curl_setopt($ch , CURLOPT_URL,'http://www.4yt.net/read.aspx?ChapterID=743902');
curl_setopt($ch , CURLOPT_RETURNTRANSFER,true);
$page=curl_exec($ch);
$f = fopen('pa.txt','w');
fwrite($f , $page);这个小说网站的内容不见了. 内容指的是 小说内容
比如discuz的加密函数你首先要采集密钥,然后再能解密。
可是好像专门用来采集DISCUZ的软件还比较多
$url = "http://www.4yt.net/Read.aspx?ChapterID=790873";
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_REFERER, $url);
curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);
curl_setopt($ch, CURLOPT_HEADER, 1);
curl_setopt($ch, CURLOPT_NOBODY, 0);
curl_setopt($ch, CURLOPT_TIMEOUT, 10);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); // 允许自动跳转
$contents = curl_exec($ch);
curl_close($ch);
echo $contents;完全可以抓取,只要模拟浏览器就行了。
以上代码 验证通过。