从网页文件中获取文本文件

最近自己编写电子书，遇到查找指定字符串的困难。我有一堆从word转换而成的.html文件。我想从这一堆.html文件中获取word内容，也就是获取纯文本文件，而非获取.html源码文件。然后在获取的文本文件中进行指定字符串匹配，匹配上就说明该.html文件含有该字符串。
就是一个简单的字符串匹配查询，困扰多时，感谢各位达人相助！

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

遍历文件夹， File.ReadAllext("")
正则过滤html
Regex.Replace(str,@"<[^> ]+>","");
string[] files = Directory.GetDirectories("D:\\", "*.html", SearchOption.AllDirectories);
foreach(string f in files)
{
FileInfo fi = new FileInfo(f);
}
网页中不仅仅有.html文件标签，还有javascript，这个怎么弄啊？
不如分析下，你要的文本都在哪些标签里。比如<div>xxx</div>，<p>xxx</p>等。
找到规律用正则表达式取。
我有100个网页，里面是国家法规总汇，想通过搜索功能，输入关键字，获取文件名的一个list。
最近一直在研究lucene.net。但进展确不是很好，是不是有比较方便的方法？