如何从如下html中提取有用的汉字。<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><FONT 
                  size=3><SPAN lang=EN-US><SPAN style="mso-tab-count: 1"><FONT 
                  face="Times New Roman">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 
                  </FONT></SPAN></SPAN><SPAN 
                  style="FONT-FAMILY: 宋体; mso-bidi-font-size: 10.5pt">清华大学郑重承诺:决不让一个勤奋而有才华的学生因为家庭经济困难而辍学!</SPAN></FONT></P>
                  <P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><FONT 
                  size=3><SPAN 
                  style="FONT-FAMILY: 宋体; mso-bidi-font-size: 10.5pt"><SPAN 
                  lang=EN-US><o:p></o:p></SPAN></SPAN></FONT>&nbsp;</P>
                  <P class=a 
                  style="MARGIN: 0cm 0cm 0pt; LINE-HEIGHT: normal"><SPAN 
                  style="FONT-SIZE: 10.5pt; FONT-FAMILY: 宋体"><SPAN 
                  style="mso-tab-count: 1"></SPAN>&nbsp;&nbsp;&nbsp; 
                  多年来,清华大学</SPAN><SPAN class=times><SPAN 
                  style="FONT-SIZE: 10.5pt; FONT-FAMILY: 宋体">始终把经济</SPAN></SPAN><SPAN 
                  class=times><SPAN 
                  style="FONT-SIZE: 10.5pt; FONT-FAMILY: 宋体">资助体系建设作为学校人才培养工作和办学过程中的一件大事。目前,</SPAN></SPAN><SPAN 
                  style="FONT-SIZE: 10.5pt; FONT-FAMILY: 宋体">学校已建立了比较完善的“助、勤、奖、贷、补”体系。2006年,在学校主要领导的直接指导下,学生资助管理中心与校友会、基金会、财务处等部门合作,在各院系的大力支持下,出台了新的“家庭经济困难本科学生资助体系”。新经济资助体系明确提出</SPAN></P>
提取结果是:清华大学郑重承诺:决不让一个勤奋而有才华的学生因为家庭经济困难而辍学!     多年来,清华大学始终把经济资助体系建设作为学校人才培养工作和办学过程中的一件大事。目前,学校已建立了比较完善的“助、勤、奖、贷、补”体系。2006年,在学校主要领导的直接指导下,学生资助管理中心与校友会、基金会、财务处等部门合作,在各院系的大力支持下,出台了新的“家庭经济困难本科学生资助体系”。新经济资助体系明确提出
多谢多谢。

解决方案 »

  1.   

    Regex regex = new Regex(@"<SPAN 
                      style=""FONT-FAMILY: 宋体; mso-bidi-font-size: 10.5pt"">(.*?)</SPAN>");
    MatchCollection matchs = regex.Matches(html);就可以取出所以的汉字了,标题就是第一个matchs[0]里的了
      

  2.   

    嗯  把所有HTML的标签替换为空
    没有写过 帮LZ顶下。
      

  3.   

    嗯  把所有HTML的标签替换为空
    没有写过 帮LZ顶下。
      

  4.   

    谢谢各位。
    kuya兄提出的方法:
    Regex regex = new Regex(@" <SPAN 
                      style=""FONT-FAMILY: 宋体; mso-bidi-font-size: 10.5pt"">(.*?) </SPAN>"); 
    MatchCollection matchs = regex.Matches(html); 就可以取出所以的汉字了,标题就是第一个matchs[0]里的了
    里面会有很多宋体显示。
      

  5.   

    String CleanInput(string strIn)
    {
        return Regex.Replace(strIn, @"</?[^>]*>", "");
    }