读取无格式数据的问题

我的数据是通过cuteeditor提前的!我现在读出部分数据来,但我要不带任何格式的,比如分段呀,图片呀,什么都不要,就只要文字信息!请高手帮忙!~

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

通过正则表达式匹配
例如匹配标记"<[^/>]*>"   --->  匹配类似<....>的标记
全部replace成""就行了
忘了说了,需要循环匹配
参考Regex类,Match类,还有Group类
///提取HTML代码中文字的C#函数
  ///   <summary>
  ///   去除HTML标记
  ///   </summary>
  ///   <param   name="strHtml">包括HTML的源码   </param>
  ///   <returns>已经去除后的文字</returns>
  using   System;
  using   System.Text.RegularExpressions;
  public   class   StripHTMLTest{
      public   static   void   Main(){
          string   s=StripHTML("<HTML><HEAD><TITLE>中国石龙信息平台</TITLE></HEAD><BODY>faddfs龙信息平台</BODY></HTML>");
          Console.WriteLine(s);
      }

      public   static   string   StripHTML(string   strHtml){
          string   []   aryReg   ={
                      @"<script[^>]*?>.*?</script>",

                      @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
                      @"([\r\n])[\s]+",
                      @"&(quot|#34);",
                      @"&(amp|#38);",
                      @"&(lt|#60);",
                      @"&(gt|#62);",
                      @"&(nbsp|#160);",
                      @"&(iexcl|#161);",
                      @"&(cent|#162);",
                      @"&(pound|#163);",
                      @"&(copy|#169);",
                      @"&#(\d+);",
                      @"-->",
                      @"<!--.*\n"
                    };

          string   []   aryRep   =   {
                        "",
                        "",
                        "",
                        "\"",
                        "&",
                        "<",
                        ">",
                        "   ",
                        "\xa1",//chr(161),
                        "\xa2",//chr(162),
                        "\xa3",//chr(163),
                        "\xa9",//chr(169),
                        "",
                        "\r\n",
                        ""
                      };

          string   newReg   =aryReg[0];
          string   strOutput=strHtml;
          for(int   i   =   0;i<aryReg.Length;i++){
              Regex   regex   =   new   Regex(aryReg[i],RegexOptions.IgnoreCase);
              strOutput   =   regex.Replace(strOutput,aryRep[i]);
          }
          strOutput.Replace("<","");
          strOutput.Replace(">","");
          strOutput.Replace("\r\n","");
          return   strOutput;
      }
  }
其实我要做的是文章摘要!~~用StripHTML还处理,太影响读取速度了!不知道还有没有好一点的方法