大家都知道对于数据库的数据可以用全文索引
  但对于系统文件的检索呢?
  此外对于各种类型,例如图纸,PPT,PDF类型的文件如何检索呢?
  当然系统文件也可用SQLSERVER的检索引擎,但它支持类型太少,而且不方便.
  大家在这方面有没有心得?可否讲一下?   最后一点,小生有个群,最近常讨论日益明朗和公开化的技术难点,有兴趣可以来一块探讨一下
    还有八个名额满员!!!!
       群号:28029937

解决方案 »

  1.   

    没有好的解决方案,感觉其他的类型检索是非常不方便,比如说XML检索要遍历所有节点,以至效率低下,现在据说有一种LPAD的技术,不过也没有一个成熟的解决方案..关注楼下.
      

  2.   

    用lucene,可以很容易建立索引并查找。对于不同的文件格式,如pdf,可能要多做一步分析。
      

  3.   

    系统文件的检索方法很多了
    主要是看你的东西适合用什么方法
    对于图纸,PPT,PDF类型的文件
    自己写一个数组
    把这些文件的后缀添加进去
    或者你可以在界面留一个接口
    用户想添加什么类型的文件都可以,当然应支持汉语输入(比如图像文件,你就在后台添加.bmp、.jpg等等)
      

  4.   

    可能我没说明白,我的意思是对系统文件进行全文检索,它的难点在于如何从图纸(DWG),PPT,PDF里面解析出文字,供从中去查找关键词
      

  5.   

    pdf可以用PDFBox分析出文本。Office documents 也有第三方的插件。 DWG就不知道了,要分析文件格式了吧
      

  6.   

    其他的不说
    dwg文件格式很复杂,
    做到检索很困难
    但是其中的文字信息还是比较容易解析的
    网上有这样的文章
    甚至可以考虑转化成dxf
      

  7.   

    在文件内容中搜索
    www.codeproject.com/csharp/winsearchfile.asp
      

  8.   

    http://www.codeproject.com/cs/files/winsearchfile.asp
      

  9.   

    你不是想做桌面搜索引擎把,用程序实现PDF,PPT文件的读取,这些都有接口,到处能搜到,为了速度快就是存数据库了,索引。然后可以高速查询
      

  10.   

    建议研究一下com的组合文档
      

  11.   

    Knight94(愚翁) :你好,很感谢您的指点,这个项目我看了他的源代码,他是把所有文件读到内存中再解析的,这样速度太慢.在实际应用中不是很适用?您还有更好的方法吗?
      

  12.   

    如果你可以使用Indexing service的话,可以参看
    http://developerland.com/DotNet/Enterprise/340.aspx
    http://www.eggheadcafe.com/articles/20010422.asp
      

  13.   

    index service支持类型有限,只支持TXT,DOC,HTM,PPT类型
      

  14.   

    不是这么少,按照
    http://developerland.com/DotNet/Enterprise/340.aspx
    的介绍,参看文章的“Which files is Indexing Server capable of indexing?”这个部分
        * query.dll - Filters files with the TXT, ASM, BAT, C, CPP, CXX, CMD, DEF, DIC, H, HPP and XML extensions. These are all read as plain text files.
        * nlhtml.dll - Filters files with the ASCX, ASP, ASPX, CSS, HHC, HTA, HTM, HTML, HHT, HTW, HTX, ODC and STM extension. These are all files which contain or render HTML content.
        * offfile.dll - Filters files with the DOC, DOT, POT, PPS, PPT, XLB, XLC, XLS and XLT extension. All these files are MS Office files.
        * mimefilt.dll - Filters files with EML extension, which are MIME content.
        * mspfilt.dll - Filters files with the TIFF extension. This filter gets installed by MS Office 2003.
      

  15.   

    Knight94(愚翁)是唯一一个不含任何水分的让人尊敬的真正称的上五星高手的高手.