Jive笔记2----关于Jive2中的中文搜索 
转至 J道       作者:shyguy Jive虽然构架不错,可是在中文处理上,实在可以算是垃圾。Lucene也是如此。最新版的Lucene1.2RC2中,queryParser类竟然只能处理A-Z|a-z|0-9的搜索。如果输入了中文,就给你扔出一个“Lexial parse Error”的错误。而且,E文中的Keyword是根据空格区分,这不适用于中文,所以一般采用基于字典的断词或者OverLapped断词。了解了上面的情况,我们就可以开始修改Lucene以实现中文搜索了。 (1)修改queryParser.jj,修改里边的词法定义,以适应Unicode双字节。QueryParser是由JavaCC生成的,建议了解一下JavaCC的语法,和EBNF概念相似。 (2)编写一个自己的Analyzer和Tokenizer。这里我从Lucene的Mail List中搞到了一个ChineseTokenizer.java,自己根据StandardAnalyzer.java写了一个ChineseAnalyzer.java。我们将用这个分析器用Overlapped方式切割一个完整的中文语句。 (3)修改Jive2中的dbQuery.java和SearchManager.java, 
将imoprt com.lucene.*...改成import org.apache.lucene.*... 
将里边的StandardAnalyzer改成ChineseAnalyzer (4)编译,启动Jive,Rebuild index.现在,你的Jive2就能支持中文搜索了 注意: 
Jive和AppServer必须在中文环境下运行。比如中文的NT/2000或者在Unix/Linux下边设置export LC_ALL=zh_CN. 
同时,Global.jsp中加上request.setCharacterEncoding("gb2312"); 
分别给相关的页面加上contentType="text/html;charset=gb2312".这样可以不改动应付绝大多数AppServer,包括垃圾Tomcat4.0.1。 
还有,修改dbURL为jdbc:mysql://localhost/jive2?useUnicode=true&characterEncoding=gb2312 
附: 
修改的 
QueryParser.jjzh 
\ChineseAnalyzer.java 
zh\ChineseTokenizer.java 
三个文件的Zip包 

解决方案 »

  1.   

    Jive笔记8--查询的Bug
    转至 J道       作者:shyguy 
    Bug 重现
    (1)创建一个Root Forum,everyOne 可读
    (2)创建一个Hidden Category,其下创建一个Forum,命名为Forum(2)
    (3)创建第三个Category,其下创建一个Forum(3)均为可读。随意在各个Forum填写数据,Rebuild Index.进入search.jsp
    选中Forum(3),填入Forum(2)中某个message的内容中某些单词,Search,查询结果出来,呵呵。Forum(2)赫然在返回的结果中。正确的结果应该是:这里选择了Forum(3),也就是在forum(3)中查询,那么应该是只允许返回Forum(3)下的结果(地球人都知道)。
    原因分析
    看DBQuery.java:executeQuery()的代码: // Forum filter -- we can ignore filtering if we are searching all
                // forums in the system.
                if (forums.length != 0 && factory.getForumCount() != forums.length) {
                    String[] forumIDs = new String[forums.length];
                    for (int j=0; j<forumIDs.length; i++) {
                        forumIDs[j] = Long.toString(forums[j].getID());
                    }
                    multiFilter.add(new FieldFilter("forumID", forumIDs));
                    filterCount++;
                }问题就在这个sb的if()判断!!这里牵涉到ForumFactoryProxy.createQuery()里面的一段代码public Query createQuery() {
            // Special implementation of this method so that we can determine the
            // actual list of forums that the user has permissions to search over.
            ArrayList forumList = new ArrayList();
            for (Iterator iter = forums(); iter.hasNext(); ) {
                forumList.add(iter.next());
            }
            Forum [] forums = new Forum[forumList.size()];
            for (int i=0; i<forums.length; i++) {
                forums[i] = (Forum)forumList.get(i);
            }
            return createQuery(forums);
        }
    从这段代码可以看到,获得了用户可访问的forums,传递给DBQuery。
    这样似乎可以限制用户在其可访问的forums中搜索。
    所以有了DBQuery::executeQuery()中的哪个if(判断),意思是:如果传入的forums和(DBForumFactory)factory.getForumCount()相同,则认为查询所有Forums,不做判断。否则,是在某几个forum中查询。上面的逻辑很对,,但是加了Category以后就出问题了。首先,为了兼容factory.getForums(),factory.getForumCount()都是调用了RootForumCategory的方法,也就是说,只返回了root forum.你发现问题了么?没错,按照上面的判断,我选择了forum(2),此时系统有1个rootForum,显然if(factory.getForumCount() != forums.length)这样的判断是不成立的。所以“在forum(2)中查询这个条件”这个条件就被忽略了。于是,返回了不应该出现的查询结果。
    究其根本的原因有2个,(1)jive2.5后来加入的Category以后同时为了保证兼容,而带来的问题;(2)搜索的权限控制问题。顺便带一句,jive官方网站的论坛没有rootForum.所以,上面的判断永远成立。于是这个问题就被“隐藏起来”了。解决办法
    自己想!!!