正则表达式:怎么提取每一条的新闻标题和链接呢?
比如有个新闻列表页面,我已经可以截出下面这段,但是接下来就不知道该怎么做了。我需要提取每一条的新闻标题和链接没有思路啊<li>
<span class="list_column1">
<a href="1234.html" target="_blank">电脑出现<em>内存</em>错误怎么办。</a>
</span>
<span class="list_column2">
<span>08-08-17</span>
</span>
</li>
<li>
<li>
<span class="list_column1">
<a href="2345.html" target="_blank">电脑出现<em>硬盘</em>错误怎么办。</a>
</span>
<span class="list_column2">
<span>08-08-17</span>
</span>
</li>
<li>
比如有个新闻列表页面,我已经可以截出下面这段,但是接下来就不知道该怎么做了。我需要提取每一条的新闻标题和链接没有思路啊<li>
<span class="list_column1">
<a href="1234.html" target="_blank">电脑出现<em>内存</em>错误怎么办。</a>
</span>
<span class="list_column2">
<span>08-08-17</span>
</span>
</li>
<li>
<li>
<span class="list_column1">
<a href="2345.html" target="_blank">电脑出现<em>硬盘</em>错误怎么办。</a>
</span>
<span class="list_column2">
<span>08-08-17</span>
</span>
</li>
<li>
preg_match_all('#<a\s*href\s*=\s*["\']?([^"\'\s]*)[^>]*>(.*?)</a>#', $html, $m);
print_r($m);
太牛B,谢谢我自己刚试了,只能提取链接,标题死活都出不来你这个我要仔细学习学习了。
还有标题中有<em></em>这样的东西,我看想什么办法能去掉了