比如
原始文本为:
<table width="500" border="0" cellspacing="0" cellpadding="0">
<tr align="center">
<td valign="top" >百美公司 版权所有</td>
<hr>天下第一刀
</tr> </table> 希望显示为:百美公司 版权所有 天下第一刀
也就是把网页标志全部过滤掉
原始文本为:
<table width="500" border="0" cellspacing="0" cellpadding="0">
<tr align="center">
<td valign="top" >百美公司 版权所有</td>
<hr>天下第一刀
</tr> </table> 希望显示为:百美公司 版权所有 天下第一刀
也就是把网页标志全部过滤掉
>([^>]*)</取出Mach.Group(1)即得到文本,所有匹配的文本就是你最后得到的。
s = System.Text.RegularExpressions.Regex.Replace(s, @"<[^>]+>","");
比如关键字为 “Test”则将来显示时原始字串中包含“Test”的部分(html标志已成功过滤掉)替换为<font style='background-color:#ffff66'>Test</font>现在显示结果出来了!但是原来的Html格式都没有了!全部成了普通文本请问怎样再还原原来的格式 并将替换文本也加进去??
s = System.Text.RegularExpressions.Regex.Replace(s, @"<(?!/?script|\!--)[^>]+>","", RegexOptions.IgnoreCase);
我的作法是提取出文本,他的作法是替换调标签。使用s = System.Text.RegularExpressions.Regex.Replace(s, @"<(?!/?script|\!--)[^>]+>","", RegexOptions.IgnoreCase);
可以先把脚本去掉。
,然后提取文本,还是去处标签,你都能得到网页文本。