我想了解用VC开发全文检索的信息。比如检索WORD文件内容。

解决方案 »

  1.   

    i think u can try this, sorry, i don't how to solve it.可以映射整个文件(或者文件的一部分),然后用strstr查找是否包含指定的字符串。
      

  2.   

    KMP算法很经典的,做什么,具体点!
      

  3.   

    如果你不想跨平台,可以干脆重用Windows 系统索引模块。
      

  4.   

    u can download sourcecode of htdig, which's famous search engine under linux. u can search the website using the key word: htdig.good luck!
      

  5.   

    我建议你看 <C++ primer>第六章,上面有一个很好的例子。讲得很好
      

  6.   

    建议你先做一个格式转换工具,把各种格式 to TXT ,然后再对TXT进行索引与检索
      

  7.   

    请问,你知道word的存储格式吗?可能可以用VBA来做。
      

  8.   

    现在所有的word转换方法都一样,调用word自己的api接口,实际上就是相对于把word文件打开一次抽出文本再关闭,所以效率都不好
      

  9.   

    恩,我就是打开WORD把文本区出来,再关闭他。
    效率太底:(
      

  10.   

    这个还没有更好的办法,除非有人把word反解出来,直接提出文本。不过好像还没听说过其他人有这么做的,如果想提高效率,只有从索引速度考虑了
      

  11.   

    先将 WORD 文件全部(或部分)转换成文本文件,在对文本文件进行分词、建索引,然后使用索引进行检索,关键在于分词和建索引,文件转换不是主要问题。不要试图使用任何简单的文本匹配方法去做,你要做的是全文检索,就是按词匹配,而不是按字节匹配。分词是检索准确的关键,索引是检索速度的关键,当然还要有一个好的文件存储方案保证索引在创建、读取和更新时的效率。
      

  12.   

    they are probably hidden in some academic publications, but see Microsoft Reseacher Stephen Robertson's list of publications at
    http://research.microsoft.com/users/robertson/he developed some ranking algorithm for Microsofthere are some additional worthy read:An Algorithm for Full Text Indexing
    http://citeseer.nj.nec.com/529554.htmlCharming Python: Developing a full-text indexer in Python 
    http://www-106.ibm.com/developerworks/xml/library/l-pyind.htmlSearch engine basics 
    http://www-106.ibm.com/developerworks/library/searchengine.html