最近自己编写电子书,遇到查找指定字符串的困难。我有一堆从word转换而成的.html文件。我想从这一堆.html文件中获取word内容,也就是获取纯文本文件,而非获取.html源码文件。然后在获取的文本文件中进行指定字符串匹配,匹配上就说明该.html文件含有该字符串。
就是一个简单的字符串匹配查询,困扰多时,感谢各位达人相助!

解决方案 »

  1.   

    遍历文件夹, File.ReadAllext("")
    正则过滤html
    Regex.Replace(str,@"<[^> ]+>",""); 
      

  2.   

    string[] files = Directory.GetDirectories("D:\\", "*.html", SearchOption.AllDirectories);
    foreach(string f in files)
    {
    FileInfo fi = new FileInfo(f);
    }
      

  3.   

    网页中不仅仅有.html文件标签,还有javascript,这个怎么弄啊?
      

  4.   

    不如分析下,你要的文本都在哪些标签里。比如<div>xxx</div>,<p>xxx</p>等。
    找到规律用正则表达式取。
      

  5.   

    我有100个网页,里面是国家法规总汇,想通过搜索功能,输入关键字,获取文件名的一个list。
    最近一直在研究lucene.net。但进展确不是很好,是不是有比较方便的方法?