我首先利用PHP抓取了一个网页内容
ob_start();
$ch = curl_init();
curl_setopt( $ch, CURLOPT_URL, $url );
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_HEADER, 0);
$retrievedhtml=curl_exec( $ch );
ob_end_clean();
curl_close( $ch );然后我想从中提取导航部分的信息,由于抓取网页地址不固定,请问怎么判断和抓取网页导航内容比较好?
有什么好方法吗
ob_start();
$ch = curl_init();
curl_setopt( $ch, CURLOPT_URL, $url );
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_HEADER, 0);
$retrievedhtml=curl_exec( $ch );
ob_end_clean();
curl_close( $ch );然后我想从中提取导航部分的信息,由于抓取网页地址不固定,请问怎么判断和抓取网页导航内容比较好?
有什么好方法吗
我之前做过抓取网站名称,就是<title></title>之间的部分。两步:
1、先以<title>为分隔,把整张网页代码变成一个数组,取后面的部分;
2、再以</title>分隔,再拆分数组,取前面的部分;
最终得到<title></title>中间的部分,成功!