目前有个项目,要求用lucene对计算机上的大量txt文本文件做海量索引(文本文件内放了些文章),
由于lucene内自带的分析器Analyzer不支持中文,
而网上有大量的中文分词工具包(也就是说给它一段文本如“保湿防护化妆水”,可以返回字符串“保湿 防护 化妆水”),
可是这种分词用的工具包,
如何在用lucene全文索引的过程中利用这个工具包的功能呢?
目前我的利用方法是,得到返回字符串后,利用返回字符串中的空格,用whitespaceAnalyzer()空格分析器进行解析,入lucene索引库,然后再次用空格分析器将其解析出来,得出查询结果请熟悉lucene全文检索的朋友给点好的建议,总感觉自己的方法虽然可行,但是不太地道,谢谢了~~