1)用上网的通用匹配html的正则<(S*?)[^>]*>.*?|<.*? />,可以去掉大部分的代码,但这样的代码去不掉(10℃~11℃ / 50°F~52°F" rc="htt://xx.xxx.c/weather_img/14.gif">)原来代码是这样的(<TD id=bc898115 class=ht><IMG title="多云<br>10℃~11℃ / 50°F~52°F" rc="htt://xx.xxx.c/weather_img/14.gif"></TD>)
请问怎样才可以一起去掉。

解决方案 »

  1.   

    贪婪模式
    <(S*?)[^>]*>.*|<.*? />
      

  2.   

    去掉所有标签?
      string str = File.ReadAllText("D:\\1.txt", Encoding.Default);
      str = Regex.Replace(str, @"(?is)<((?<g><)|(?<-g>>)|[^<>])*(?(g)(?!))>", "");
              
      

  3.   

    平衡组
    <((?<Open><)|(?<-Open>>)|[^<>])*(?(Open)(?!))>参考
    http://blog.csdn.net/lxcnn/article/details/4402808
      

  4.   

    绕了最基本就是<[^>].*?>剩下的就是把哪些特殊字符也加进来不就行了。
      

  5.   

    用htmlAgilityPack,只需要1句就可以去掉所有的标签了。