Jive笔记2----关于Jive2中的中文搜索
转至 J道 作者:shyguy Jive虽然构架不错,可是在中文处理上,实在可以算是垃圾。Lucene也是如此。最新版的Lucene1.2RC2中,queryParser类竟然只能处理A-Z|a-z|0-9的搜索。如果输入了中文,就给你扔出一个“Lexial parse Error”的错误。而且,E文中的Keyword是根据空格区分,这不适用于中文,所以一般采用基于字典的断词或者OverLapped断词。了解了上面的情况,我们就可以开始修改Lucene以实现中文搜索了。 (1)修改queryParser.jj,修改里边的词法定义,以适应Unicode双字节。QueryParser是由JavaCC生成的,建议了解一下JavaCC的语法,和EBNF概念相似。 (2)编写一个自己的Analyzer和Tokenizer。这里我从Lucene的Mail List中搞到了一个ChineseTokenizer.java,自己根据StandardAnalyzer.java写了一个ChineseAnalyzer.java。我们将用这个分析器用Overlapped方式切割一个完整的中文语句。 (3)修改Jive2中的dbQuery.java和SearchManager.java,
将imoprt com.lucene.*...改成import org.apache.lucene.*...
将里边的StandardAnalyzer改成ChineseAnalyzer (4)编译,启动Jive,Rebuild index.现在,你的Jive2就能支持中文搜索了 注意:
Jive和AppServer必须在中文环境下运行。比如中文的NT/2000或者在Unix/Linux下边设置export LC_ALL=zh_CN.
同时,Global.jsp中加上request.setCharacterEncoding("gb2312");
分别给相关的页面加上contentType="text/html;charset=gb2312".这样可以不改动应付绝大多数AppServer,包括垃圾Tomcat4.0.1。
还有,修改dbURL为jdbc:mysql://localhost/jive2?useUnicode=true&characterEncoding=gb2312
附:
修改的
QueryParser.jjzh
\ChineseAnalyzer.java
zh\ChineseTokenizer.java
三个文件的Zip包
转至 J道 作者:shyguy Jive虽然构架不错,可是在中文处理上,实在可以算是垃圾。Lucene也是如此。最新版的Lucene1.2RC2中,queryParser类竟然只能处理A-Z|a-z|0-9的搜索。如果输入了中文,就给你扔出一个“Lexial parse Error”的错误。而且,E文中的Keyword是根据空格区分,这不适用于中文,所以一般采用基于字典的断词或者OverLapped断词。了解了上面的情况,我们就可以开始修改Lucene以实现中文搜索了。 (1)修改queryParser.jj,修改里边的词法定义,以适应Unicode双字节。QueryParser是由JavaCC生成的,建议了解一下JavaCC的语法,和EBNF概念相似。 (2)编写一个自己的Analyzer和Tokenizer。这里我从Lucene的Mail List中搞到了一个ChineseTokenizer.java,自己根据StandardAnalyzer.java写了一个ChineseAnalyzer.java。我们将用这个分析器用Overlapped方式切割一个完整的中文语句。 (3)修改Jive2中的dbQuery.java和SearchManager.java,
将imoprt com.lucene.*...改成import org.apache.lucene.*...
将里边的StandardAnalyzer改成ChineseAnalyzer (4)编译,启动Jive,Rebuild index.现在,你的Jive2就能支持中文搜索了 注意:
Jive和AppServer必须在中文环境下运行。比如中文的NT/2000或者在Unix/Linux下边设置export LC_ALL=zh_CN.
同时,Global.jsp中加上request.setCharacterEncoding("gb2312");
分别给相关的页面加上contentType="text/html;charset=gb2312".这样可以不改动应付绝大多数AppServer,包括垃圾Tomcat4.0.1。
还有,修改dbURL为jdbc:mysql://localhost/jive2?useUnicode=true&characterEncoding=gb2312
附:
修改的
QueryParser.jjzh
\ChineseAnalyzer.java
zh\ChineseTokenizer.java
三个文件的Zip包
解决方案 »
- 有没有懂websphere portal的前辈,这东西到底是什么?
- java后台调用ocx求解!!
- 做过oa的朋友帮我看看,这样的需求要做多久,报多少合适........万分感谢!
- Hibernate连接sql2000出现的问题!
- 应用系统运行在jboss4.0.5上,运行几天后就会抛出“Could not obtain connection to any of these urls: localhost:1099 ”异常
- 过滤器
- 请教一个释放Spring容器资源的问题。
- hibernate+Mysql 存储过程出错
- 面试被告做六套题,每套至少做十道,长达N个小时!
- 有时候觉得ejb实现的东西用javabean也可以实现,好象还省资源
- 请教cmr的问题
- IE不能?NETSCAPE能?Weblogic控制台树型目录显示问题!
转至 J道 作者:shyguy
Bug 重现
(1)创建一个Root Forum,everyOne 可读
(2)创建一个Hidden Category,其下创建一个Forum,命名为Forum(2)
(3)创建第三个Category,其下创建一个Forum(3)均为可读。随意在各个Forum填写数据,Rebuild Index.进入search.jsp
选中Forum(3),填入Forum(2)中某个message的内容中某些单词,Search,查询结果出来,呵呵。Forum(2)赫然在返回的结果中。正确的结果应该是:这里选择了Forum(3),也就是在forum(3)中查询,那么应该是只允许返回Forum(3)下的结果(地球人都知道)。
原因分析
看DBQuery.java:executeQuery()的代码: // Forum filter -- we can ignore filtering if we are searching all
// forums in the system.
if (forums.length != 0 && factory.getForumCount() != forums.length) {
String[] forumIDs = new String[forums.length];
for (int j=0; j<forumIDs.length; i++) {
forumIDs[j] = Long.toString(forums[j].getID());
}
multiFilter.add(new FieldFilter("forumID", forumIDs));
filterCount++;
}问题就在这个sb的if()判断!!这里牵涉到ForumFactoryProxy.createQuery()里面的一段代码public Query createQuery() {
// Special implementation of this method so that we can determine the
// actual list of forums that the user has permissions to search over.
ArrayList forumList = new ArrayList();
for (Iterator iter = forums(); iter.hasNext(); ) {
forumList.add(iter.next());
}
Forum [] forums = new Forum[forumList.size()];
for (int i=0; i<forums.length; i++) {
forums[i] = (Forum)forumList.get(i);
}
return createQuery(forums);
}
从这段代码可以看到,获得了用户可访问的forums,传递给DBQuery。
这样似乎可以限制用户在其可访问的forums中搜索。
所以有了DBQuery::executeQuery()中的哪个if(判断),意思是:如果传入的forums和(DBForumFactory)factory.getForumCount()相同,则认为查询所有Forums,不做判断。否则,是在某几个forum中查询。上面的逻辑很对,,但是加了Category以后就出问题了。首先,为了兼容factory.getForums(),factory.getForumCount()都是调用了RootForumCategory的方法,也就是说,只返回了root forum.你发现问题了么?没错,按照上面的判断,我选择了forum(2),此时系统有1个rootForum,显然if(factory.getForumCount() != forums.length)这样的判断是不成立的。所以“在forum(2)中查询这个条件”这个条件就被忽略了。于是,返回了不应该出现的查询结果。
究其根本的原因有2个,(1)jive2.5后来加入的Category以后同时为了保证兼容,而带来的问题;(2)搜索的权限控制问题。顺便带一句,jive官方网站的论坛没有rootForum.所以,上面的判断永远成立。于是这个问题就被“隐藏起来”了。解决办法
自己想!!!