php抓取站点的所有链接 php抓取一个站点的所有链接,类似蜘蛛,哈哈,不知道有没有高手知道怎么写呢例如入口外是http://www.ghdhairol.com/然后要给出这个站的所有链接 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 1.用curl抓取页面2.用正则提取链接 改的phpwind的$urlArray=array();$host="http://www.ghdhairol.com/";$string = @file_get_contents($host);$string=preg_replace( array( "/\<a(\s*[^\>]+\s*)href\=([\"|\']?)([^\"\'>\s]+[^\"\'>\s]+)([\"|\']?)/ies", ), array( "getHref('\\3','<a\\1href=\"')", ), $string);print_r($urlArray);function getHref($url,$tag=""){ global $urlArray; if(!preg_match('/^http|ftp|telnet|mms|rtsp/ie',$url)&&$url!="") { $url=$host.$url; } !in_array($url,$urlArray) && $urlArray[]=$url; $url = $tag==""?$url:$tag.$url.'"'; $url= stripslashes($url); return $url;} 我是可以的。但file_get_contents不是很好用。最好换成fsockopen或curl 不错 ************************zzzzzzzzzzz************************ linux上面怎么给apache安装rewrite模块? 关于php扩展的问题 很困惑的一个问题,csv导入 问个SQL查询语句 关于重定向的问题 MySQL类,你都用到了什么功能? 小妹先祝大家圣诞快乐,有空看看我的问题啦:上传文件问题, 关于表单提交的问题! SESSION问题---急!!!!!!! 请问这是怎么一回事? 偶尔会无缘无故的向MYSQL写入两次数据,头大 网站改版特来送分
2.用正则提取链接
$host="http://www.ghdhairol.com/";
$string = @file_get_contents($host);$string=preg_replace(
array(
"/\<a(\s*[^\>]+\s*)href\=([\"|\']?)([^\"\'>\s]+[^\"\'>\s]+)([\"|\']?)/ies",
),
array(
"getHref('\\3','<a\\1href=\"')",
),
$string
);
print_r($urlArray);
function getHref($url,$tag=""){
global $urlArray;
if(!preg_match('/^http|ftp|telnet|mms|rtsp/ie',$url)&&$url!="") {
$url=$host.$url;
}
!in_array($url,$urlArray) && $urlArray[]=$url;
$url = $tag==""?$url:$tag.$url.'"';
$url= stripslashes($url);
return $url;
}
但file_get_contents不是很好用。
最好换成fsockopen或curl
************************
zzzzzzzzzzz
************************