我的数据是通过cuteeditor提前的!我现在读出部分数据来,但我要不带任何格式的,比如分段呀,图片呀,什么都不要,就只要文字信息!请高手帮忙!~

解决方案 »

  1.   

    通过正则表达式匹配
    例如匹配标记"<[^/>]*>"   --->  匹配类似<....>的标记
    全部replace成""就行了
      

  2.   

    忘了说了,需要循环匹配
    参考Regex类,Match类,还有Group类
      

  3.   

    ///提取HTML代码中文字的C#函数     
      ///   <summary>   
      ///   去除HTML标记   
      ///   </summary>   
      ///   <param   name="strHtml">包括HTML的源码   </param>   
      ///   <returns>已经去除后的文字</returns>   
      using   System;   
      using   System.Text.RegularExpressions;   
      public   class   StripHTMLTest{   
          public   static   void   Main(){   
              string   s=StripHTML("<HTML><HEAD><TITLE>中国石龙信息平台</TITLE></HEAD><BODY>faddfs龙信息平台</BODY></HTML>");   
              Console.WriteLine(s);   
          }   
        
          public   static   string   StripHTML(string   strHtml){   
              string   []   aryReg   ={   
                          @"<script[^>]*?>.*?</script>",   
        
                          @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",   
                          @"([\r\n])[\s]+",   
                          @"&(quot|#34);",   
                          @"&(amp|#38);",   
                          @"&(lt|#60);",   
                          @"&(gt|#62);",     
                          @"&(nbsp|#160);",     
                          @"&(iexcl|#161);",   
                          @"&(cent|#162);",   
                          @"&(pound|#163);",   
                          @"&(copy|#169);",   
                          @"&#(\d+);",   
                          @"-->",   
                          @"<!--.*\n"   
                        };   
        
              string   []   aryRep   =   {   
                            "",   
                            "",   
                            "",   
                            "\"",   
                            "&",   
                            "<",   
                            ">",   
                            "   ",   
                            "\xa1",//chr(161),   
                            "\xa2",//chr(162),   
                            "\xa3",//chr(163),   
                            "\xa9",//chr(169),   
                            "",   
                            "\r\n",   
                            ""   
                          };   
        
              string   newReg   =aryReg[0];   
              string   strOutput=strHtml;   
              for(int   i   =   0;i<aryReg.Length;i++){   
                  Regex   regex   =   new   Regex(aryReg[i],RegexOptions.IgnoreCase);   
                  strOutput   =   regex.Replace(strOutput,aryRep[i]);   
              }   
              strOutput.Replace("<","");   
              strOutput.Replace(">","");   
              strOutput.Replace("\r\n","");   
              return   strOutput;   
          }   
      }   
        
      

  4.   

    其实我要做的是文章摘要!~~用StripHTML还处理,太影响读取速度了!不知道还有没有好一点的方法