并非广告贴,主要是想和大家讨论技术。
地址 http://search.mdbchina.com核心是Lucene 2.0,中文分词是我自己搞得,分词算法也是我自己独创的,有拼音搜索,兼容繁体中文搜索,错别字纠正,有搜索建议,还有相关搜索功能列出相关搜索关键词。我自己搞的分词主要有一下一些类
ChineseAnalyzer: 不是Lucene文档里的那个,是我自己堆出来的
ChineseTokenizer: 不是Lucene文档里的那个,我自己整的分词器
ChineseTokenizerConstants: 一看便知
ChineseTokenizerTokenManager: 对StandardTokenizerTokenManager的“补丁”
ChineseSimplificationFilter: 繁体转简体过滤器我没有使用公认的模式,即:中文分词->******Analyzer,我选择了更为底层的方法,创新出我自己的ChineseAnalyzer,请各位高人试用。