做抓取信息 ,文章链接,出处,作者,时间,还有要抓取文章内容
如:http://www.bjxch.gov.cn/pub/xch_zhuzhan/xwzhx/A3_10/index.html 
链接和标题都抓取了,但链接的内容怎么抓不到
就说其中的一个链接内容吧
链接是:http://www.bjxch.gov.cn/pub/xch_zhuzhan/xwzhx/A3_10/201005/t20100510_1158339.html
我把提取内容的规则写成:"/(<\/style>.*<\/td>)/i" 
却提不出内容,整篇文章只有一个</style>,这么写怎么不对哦,想直接用正则表达中文,又不会

解决方案 »

  1.   

    http://topic.csdn.net/u/20100511/19/f20fd1c7-56fc-4936-b6e1-9d2d24c990e3.html
    另外匹配中文正则$str = "我是grgr测试的dfefefef%^&(*";
    preg_match_all("/([\x7f-\xff][\x7f-\xff]*)/s", $str, $match);//匹配汉字
    print_r($match[1]);
      

  2.   

    匹配中文。利用 asc码就可以了
      

  3.   

    <?php
    $str = <<< HTML
    DIV.union TD {
    FONT-SIZE: 14px; LINE-HEIGHT: 18px
    }</style>
      昨天,西城区少工委在育翔小学举行“爱心手拉手,书香传友谊”捐建“红领巾好少年书屋”活动。该区2.6万名少先队员将在一周内捐出15万册图书,并于“六一”儿童节前送往青海玉树灾区小伙伴手中。  </td>
                              </tr>
                            </table>
    HTML;
    preg_match('#</style>(.+)</td>#is',$str,$m);
    var_dump($m[1]);
    ?>
      

  4.   

    Gooooooooooooooooooooooooooooooooooooooooooooooooooooooooood