如何用正则表达式解析HTML - 调试易

如何用正则表达式解析HTML

试图用Pattern从HTML中提取形如<a href="http://tech.tom.com/2006-07-16/04BI/08261701.html" target=_blank class=clink>科研经费提成合法不合理多位大学校长呼吁改革</a><br>的字符串，
需要支持中文的提取，请问该如何编写相应的正则表达式?

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

<a href=([^>]*)>[\u4e00-\u9fa5]+</a>
<a\s+href=.+?>.+?</a>
从HTML代码中提取连接地址:
<script>
var str="ksldfjk<a href='a.jsp'>aaa</a><a href='a.jsp'>aaa</a><a href='a.jsp'>aaa</a>";
var url=[];
var i=0;
str.replace(/<a\s+href=[\"']?([^<>\"']*)[\"']?>/g,function($0,$1){url[i]=$1;i++});
alert(url);
</script>
你把标签去部去掉就可以啊.
<.*?>可以找出所有标签,替换成"",
剩下的就是文本了.