做抓取信息 ,文章链接,出处,作者,时间,还有要抓取文章内容
如:http://www.bjxch.gov.cn/pub/xch_zhuzhan/xwzhx/A3_10/index.html
链接和标题都抓取了,但链接的内容怎么抓不到
就说其中的一个链接内容吧
链接是:http://www.bjxch.gov.cn/pub/xch_zhuzhan/xwzhx/A3_10/201005/t20100510_1158339.html
我把提取内容的规则写成:"/(<\/style>.*<\/td>)/i"
却提不出内容,整篇文章只有一个</style>,这么写怎么不对哦,想直接用正则表达中文,又不会
如:http://www.bjxch.gov.cn/pub/xch_zhuzhan/xwzhx/A3_10/index.html
链接和标题都抓取了,但链接的内容怎么抓不到
就说其中的一个链接内容吧
链接是:http://www.bjxch.gov.cn/pub/xch_zhuzhan/xwzhx/A3_10/201005/t20100510_1158339.html
我把提取内容的规则写成:"/(<\/style>.*<\/td>)/i"
却提不出内容,整篇文章只有一个</style>,这么写怎么不对哦,想直接用正则表达中文,又不会
另外匹配中文正则$str = "我是grgr测试的dfefefef%^&(*";
preg_match_all("/([\x7f-\xff][\x7f-\xff]*)/s", $str, $match);//匹配汉字
print_r($match[1]);
$str = <<< HTML
DIV.union TD {
FONT-SIZE: 14px; LINE-HEIGHT: 18px
}</style>
昨天,西城区少工委在育翔小学举行“爱心手拉手,书香传友谊”捐建“红领巾好少年书屋”活动。该区2.6万名少先队员将在一周内捐出15万册图书,并于“六一”儿童节前送往青海玉树灾区小伙伴手中。 </td>
</tr>
</table>
HTML;
preg_match('#</style>(.+)</td>#is',$str,$m);
var_dump($m[1]);
?>