如何用正则获取网页中的所有英文单词

一个网页夹杂英文中文特殊符号,音标等,我想只获取其中的全啊单词,忽略其它

http://topic.csdn.net/u/20090428/11/a0432460-17d0-469f-9061-5c240e03252d.html
看看这个例子，网页抓取技术，然后再针对你保存到数据库的字符串进行过滤，希望对你有帮助。
单词中间不会有空格，可以有'，按英文排版顺序，可以有连字符。试试这个
\b(?!'-)([a-zA-Z']|-[\r\n]+[a-zA-Z']+)+当然了。你匹配完成后，对连字符要重新剔除一次。
原文
hello world! Jus-
t test here.It's w-
ork fine,is it?正则
\b(?!'-)([a-zA-Z']|-[\r\n]+[a-zA-Z']+)+匹配结果
hello
world
Jus-
t
test
here
It's
w-
ork
fine
is
it
最终如果你处理的有换行、连字符，单词中的需要去掉。
Regex.Replace(word,@"[\r\n\-]","")
解析HTML
http://topic.csdn.net/u/20100428/19/46bf1fab-1498-4c17-aece-e9efa8143391.html