文字类似这样:
    中新社华盛顿七月二十日电 美国总统布什当地时间今天上午在白宫会见了中国中央军委副主席郭伯雄,在会见中,双方就国际与地区安全、中美两国两军关系等问题交换了意见。  在会见中,郭伯雄还特别要求美国恪守中美建交的三个联合公报,停止出售先进武器给台湾,不给“台独”势力以错误的信号。
    中新社华盛顿七月二十日电 美国总统布什当地时间今天上午在白宫会见了中国中央军委副主席郭伯雄,在会见中,双方就国际与地区安全、中美两国两军关系等问题交换了意见。在会见中,郭伯雄还特别要求美国恪守中美建交的三个联合公报,停止出售先进武器给台湾,不给“台独”势力以错误的信号。
粘贴到textBox里面去就是这样子的,但是在网页的代码中就是一样的。我试过将前50个字提出来跟后面的比较来截取可以成功,但是如果前50个字中如果有<br>的话,就不成功了,因为后面的<br>在textbox体现不出来,所以用字的总数除2也是没有办法的,因为前面有换行,后面没有请教各位提供一个方法啦。

解决方案 »

  1.   

    试一下用StringBuilder过滤空格(换行),行不?
      

  2.   

    嗯,忘记说了,把空格换行全部去掉当然可以,但是我是要生成xml文件给人的,就是最后的文字还是需要有换行空格这些的
      

  3.   

    svevx() ( ) 信誉:100  2006-07-21 16:09:00  得分: 0  
     
     
       那你比较的时候碰到特殊字符就跳过去比较下一个
      
     
    怎么跳?????
      

  4.   

    我的猪建:既然是提取段落, 就先提取句子,总不至于按单字去比较,
    以 , . ! ; ? ...(逗号\句号\感叹号....)作为分割,可以在读取文件时就按块/行或如上的句子形式, 先快速排序,或者哈希打散,或借助.NET Array 里一些较效率的方法.然后先快速查找匹配的句子(), 找到以后在加入更苛刻的条件,比如相临3行/句/块也必须匹配(因为我们分块尽可能"小"精度高, 又要尽可能"大"效率高)就在这里匀和了.
    *如果是按二进制方式,更有别的高效方法(听说),不会,需要查一下相关资料.
      

  5.   

    从html源码提取就不要提取第一段