请教各位大哥lucene的问题，顶者有分！

PDF和WORD文档你必须自己提供一个读取其内容的程序PDF可以用PJX这个项目来读取
WORD的读取现在还没有一个非常好的办法，除非用JNI来处理

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

liusoft 请问你做过这方面的DEMO吗？
可不可以发点代码过来啊：）
yanchang(笨笨) 我不会阿，嗷嗷！
liusoft(凤梨罐头) PJX这个项目在哪里可以找到啊！
谢谢各位兄弟帮忙顶啊，谢谢！
顶。介绍一下你html,txt和htm的检索是怎么实现得吧。
PJX 的资料去google搜索一下吧。帮你顶顶
公司叫我写了一篇文档，就把最后实现部分写上来吧
1.2.1 建立环境
下载lucene：http://jakarta.apache.org/Lucene/
现在有1.2和1.3以及1.4版本。1.2不支持中文，需修改里面的Analyzer才能支持。用lucene-1.3-final只要一点小修改就可以支持中文，很方便。
下载lucene-1.3-final解压后有两个包 lucene-1.3-final.jar、lucene-demos-1.3-final.jar、以及luceneweb.war用于web上的应用。
将luceneweb.war拷贝到tomcat的webApps目录下，重起tomcat，自动生成luceneweb目录。删除luceneweb.war。
配置系统环境，在classpath里面配置lucene-1.3-final.jar、lucene-demos-1.3-final.jar的目录。
1.2.2 配置
1.2.2.1 建立索引
以我的工作目录为例：E:\luceneweb
手工在luceneweb下面建立目录luceneindex（存放索引文件）,demo(用来测试的文件)。
转到cmd工作模式下：e:\luceneweb
打入命令：java org.apache.lucene.demo.IndexHTML –create –index ./luceneindex ./demo
OK！就会将demo目录下的文件建立索引，并将索引文件存到luceneindex目录下面。
1.2.2.2 在web中配置索引文件的目录
在luceneweb目录中找到一个jsp文件configuration.jsp，打开编辑，将其中的第6行改为如下形式：
String indexLocation = "e:\\luceneweb\\luceneindex";你修改成你自己的索引文件目录。
1.2.2.3 修改result.jsp，以便能够支持中文检索
在luceneweb目录中找到一个jsp文件result.jsp，
打开编辑，将其中的第67行
Analyzer analyzer = new StopAnalyzer();
修改成如下：
Analyzer analyzer = new StandardAnalyzer();
如果不修改这一句只能检索到英文内容，修改后就完全可以检索中文了。
还需导入
org.apache.lucene.analysis.standard.StandardAnalyzer
注意不要把standard包全部引入，会有意想不到的错误，我就被它郁闷了很久，还没有找出原因。
org.apache.lucene.analysis.standard.*不要这样导入，以前经理就跟我讲过，哎。
1.2.3 运行
OK，在tomcat发布你的目录，就可以运行拉要看更详细的可以去车东的网站看，我就是去那里看的，也可以去http://jakarta.apache.org/lucene/docs/index.html，我英文不好，看起来好吃力~哎
我的DEMO是参考lucene-1.4-rc3-src里面的DEMO实现的。
PDF用PJX:http://sourceforge.net/projects/pjx/
PJX is a general purpose PDF programming library for JavaWord用PIO:http://jakarta.apache.org/poi/
Jakarta POI - Java API To Access Microsoft Format Files试试看吧iText不知道行不行
本人用  lucene 1.4 建立全文检索，但发现对中文内容的WORD文档效果很差。几乎就检索不到。但对文本格式的中文内容的文件如.txt .jsp却很好。多英文内容的WORD文档也一样很好。请问各位，怎样才能对中文内容的WORD文档建立全文检索？？
我的操作步骤如下：
1.设置classpath中包含lucene-1.4-final.jar和lucene-demos-1.4-final.jar包。
2、在命令行下建立lucene的索引文件。
          java org.apache.lucene.demo.IndexFiles  filePath
        ---------------------------------------------------------------------
         注：1、lucene将该filePath目录下的所有文件作为数据源来建立索引文件
             2、demo中是在当前目录下建一个index目录来存放索引文件
3、查询
         java org.apache.lucene.demo.SearchFiles
             Query:搜索的关键字