用boost正则过滤掉html里面的所有连接 用<a(.*?)</a> 是没问题的但是我想排除和文字混合在一起的连接,比如下面的一段文字里面的连接保留,怎么做呢?---------------------我采访<a href=http://data.2008.163.com/country/home/0005000A0BeC.html>中国</a>举摔柔(<a href=http://data.2008.163.com/item/home/0005000C0CDB.html>举重</a>、摔跤、柔道)中心主任马文广,他告诉我,举重不是比力气,我们认为的举重就是谁力气大谁最厉害,其实不对。马文广说,举重特别能展现人的肌肉美,运动员获胜既要凭借肌肉的力量,也要凭借智慧,才能表现出举重的精髓——力道之美。</P>保留上面的<a href=http://data.2008.163.com/country/home/0005000A0BeC.html>中国</a>
对计算机来说,<a href=http://data.2008.163.com/country/home/0005000A0BeC.html>中国 </a>和文本外的<a href=http://data.2008.163.com/country/home/0005000A0BeC.html>中国 </a>有什么区别呢?
你得确定这两个的不同才能写出特殊的表达式(?:pattern)
(?=pattern) 正向预查,
(?!pattern) 负向预查,
[^xyz]
这些语法boost是都支持的