一个网页夹杂 英文 中文 特殊符号,音标 等,我想只获取其中的全啊单词,忽略其它

解决方案 »

  1.   

    http://topic.csdn.net/u/20090428/11/a0432460-17d0-469f-9061-5c240e03252d.html
    看看这个例子,网页抓取技术,然后再针对你保存到数据库的字符串进行过滤,希望对你有帮助。
      

  2.   

    单词中间不会有空格,可以有',按英文排版顺序,可以有连字符。试试这个
    \b(?!'-)([a-zA-Z']|-[\r\n]+[a-zA-Z']+)+当然了。你匹配完成后,对连字符要重新剔除一次。
      

  3.   

    原文
    hello world! Jus-
    t test here.It's w-
    ork fine,is it?正则
    \b(?!'-)([a-zA-Z']|-[\r\n]+[a-zA-Z']+)+匹配结果
    hello
    world
    Jus-
    t
    test
    here
    It's
    w-
    ork
    fine
    is
    it
      

  4.   

    最终如果你处理的有换行、连字符,单词中的需要去掉。
    Regex.Replace(word,@"[\r\n\-]","")
      

  5.   

    解析HTML
    http://topic.csdn.net/u/20100428/19/46bf1fab-1498-4c17-aece-e9efa8143391.html