$pattern="/(HREF=.*<\/A><TABLE)/";$url_out_patternl="/(\/XWTJJxxxsh\.ycs\?GUID=[\d]{6,})/i";$out_pre="http://tjj.bjxw.gov.cn";$contents=@file_get_contents("http://tjj.bjxw.gov.cn/XWTJJsjcx/XWTJJsjcxtjgb.ycs");
preg_match_all($pattern,$contents,$outurl);
foreach($outurl[1] as $url){
        if(in_array($url,$nums)){
                continue;
        }
        $nums[]=$url;
        $title=strip_tags($url);
        echo $title."</br>";
}部分结果:
HREF="/XWTJJxxxsh.ycs?GUID=452368">2008年国民经济和社会发展统计公报
HREF="/XWTJJxxxsh.ycs?GUID=438783">2007年国民经济和社会发展统计公报我想把中文部分提取出来

解决方案 »

  1.   

    preg_match_all('/href=[\'"]?([^\'"]*)[\'"]?>(.*)/i');
      

  2.   

    preg_match_all('/href=[\'"]?([^\'"]*)[\'"]?>(.*)/i');
      

  3.   

    哪里不明白?href=  //这里明白吧?? 含有 href=  这个串的
    [\'"]? //这里是可以含有 ' 或者 " 又或者没有。
    ([^\'"]*) //获取不存在 单引或者双引号的多个字符。