<span id="tt">...ABCD <BR><BR> <IMG src="/3.jpg" width=450 border=0><BR>DEF<BR> <IMG src="/5.jpg" border=0><BR>(记者:小王).... <BR></span>我想提取...ABCD <BR><BR> <BR>DEF<BR> <BR>.... <BR>简单的说就是将<span id="tt">.....</span>里的源码只要保留文字与换行符与空格,去掉括号(..)以及图片以及其他不相关的代码请问怎么弄啊
第一步提取正则
Regex re = new Regex("(?is)(?<=<span[^>]*>)(?>.*?(?=</span>))", RegexOptions.None);
MatchCollection mc = re.Matches("text");
foreach (Match ma in mc)
{
}
第二步过滤
所有括号:[\((].*?[\))]
所有img标记:<[img|IMG][^>]*>
str = Regex.Replace(new Regex("(?is)<span id=""tt"">(.+?)</span>").Match(str).Groups[1].Value.Replace("<BR>","[BR]"), @"<.+?>", "").Replace("[BR]", "<BR>");