PDF和WORD文档你必须自己提供一个读取其内容的程序PDF可以用PJX这个项目来读取
WORD的读取现在还没有一个非常好的办法,除非用JNI来处理

解决方案 »

  1.   

    liusoft 请问你做过这方面的DEMO吗?
    可不可以发点代码过来啊 :)
      

  2.   

    yanchang(笨笨) 我不会阿,嗷嗷!
      

  3.   

    liusoft(凤梨罐头) PJX这个项目在哪里可以找到啊!
    谢谢各位兄弟帮忙顶啊,谢谢!
      

  4.   

    顶。介绍一下你html,txt和htm的检索是怎么实现得吧。
      

  5.   

    PJX 的资料去google搜索一下吧。帮你顶顶
      

  6.   

    公司叫我写了一篇文档,就把最后实现部分写上来吧
    1.2.1 建立环境
    下载lucene:http://jakarta.apache.org/Lucene/
    现在有1.2和1.3以及1.4版本。1.2不支持中文,需修改里面的Analyzer才能支持。用lucene-1.3-final只要一点小修改就可以支持中文,很方便。
    下载lucene-1.3-final解压后有两个包 lucene-1.3-final.jar、lucene-demos-1.3-final.jar、以及luceneweb.war用于web上的应用。
    将luceneweb.war拷贝到tomcat的webApps目录下,重起tomcat,自动生成luceneweb目录。删除luceneweb.war。
    配置系统环境,在classpath里面配置lucene-1.3-final.jar、lucene-demos-1.3-final.jar的目录。
    1.2.2 配置
    1.2.2.1 建立索引
    以我的工作目录为例:E:\luceneweb
    手工在luceneweb下面建立目录luceneindex(存放索引文件),demo(用来测试的文件)。
    转到cmd工作模式下:e:\luceneweb
    打入命令:java org.apache.lucene.demo.IndexHTML –create –index ./luceneindex ./demo 
    OK!就会将demo目录下的文件建立索引,并将索引文件存到luceneindex目录下面。
    1.2.2.2 在web中配置索引文件的目录
    在luceneweb目录中找到一个jsp文件configuration.jsp,打开编辑,将其中的第6行改为如下形式:
    String indexLocation = "e:\\luceneweb\\luceneindex";你修改成你自己的索引文件目录。
    1.2.2.3 修改result.jsp,以便能够支持中文检索
    在luceneweb目录中找到一个jsp文件result.jsp,
    打开编辑,将其中的第67行
    Analyzer analyzer = new StopAnalyzer();              
    修改成如下:
    Analyzer analyzer = new StandardAnalyzer();
    如果不修改这一句只能检索到英文内容,修改后就完全可以检索中文了。
    还需导入
    org.apache.lucene.analysis.standard.StandardAnalyzer
    注意不要把standard包全部引入,会有意想不到的错误,我就被它郁闷了很久,还没有找出原因。
    org.apache.lucene.analysis.standard.*不要这样导入,以前经理就跟我讲过,哎。
    1.2.3 运行
    OK,在tomcat发布你的目录,就可以运行拉要看更详细的可以去车东的网站看,我就是去那里看的,也可以去http://jakarta.apache.org/lucene/docs/index.html,我英文不好,看起来好吃力~哎
    我的DEMO是参考lucene-1.4-rc3-src里面的DEMO实现的。
      

  7.   

    PDF用PJX:http://sourceforge.net/projects/pjx/
    PJX is a general purpose PDF programming library for JavaWord用PIO:http://jakarta.apache.org/poi/
    Jakarta POI - Java API To Access Microsoft Format Files试试看吧iText不知道行不行
      

  8.   

    本人用  lucene 1.4 建立全文检索,但发现对中文内容的WORD文档效果很差。几乎就检索不到。但对文本格式的中文内容的文件如.txt .jsp却很好。多英文内容的WORD文档也一样很好。请问各位,怎样才能对中文内容的WORD文档建立全文检索??
    我的操作步骤如下:
    1.设置classpath中包含lucene-1.4-final.jar和lucene-demos-1.4-final.jar包。 
    2、在命令行下建立lucene的索引文件。 
              java org.apache.lucene.demo.IndexFiles  filePath 
            --------------------------------------------------------------------- 
             注:1、lucene将该filePath目录下的所有文件作为数据源来建立索引文件 
                 2、demo中是在当前目录下建一个index目录来存放索引文件 
    3、查询 
             java org.apache.lucene.demo.SearchFiles 
                 Query:搜索的关键字