试图用Pattern从HTML中提取形如<a href="http://tech.tom.com/2006-07-16/04BI/08261701.html" target=_blank class=clink>科研经费提成合法不合理 多位大学校长呼吁改革</a><br>的字符串,
需要支持中文的提取,请问该如何编写相应的正则表达式?

解决方案 »

  1.   

    <a href=([^>]*)>[\u4e00-\u9fa5]+</a>
      

  2.   

    <a\s+href=.+?>.+?</a>
      

  3.   

    从HTML代码中提取连接地址:
    <script>
    var str="ksldfjk<a href='a.jsp'>aaa</a><a href='a.jsp'>aaa</a><a href='a.jsp'>aaa</a>";
    var url=[];
    var i=0;
    str.replace(/<a\s+href=[\"']?([^<>\"']*)[\"']?>/g,function($0,$1){url[i]=$1;i++});
    alert(url);
    </script>
      

  4.   

    你把标签去部去掉就可以啊.
    <.*?>可以找出所有标签,替换成"",
    剩下的就是文本了.