这款发布的淑珍分词器版本是1.1.9,完全是基于字典分词,在提供下载的压缩包中含有编译好的jar包和所有的源代码。为了方便根据自己需要对分词器进行修改,我这里介绍一下淑珍分词器的核心数据结构,这个数据结构也是当初我在写分词器的时候,为了解决词库条目多和索引速度之间的相互制约而想出来的。这个数据结构就是将词库中的每一个条目以一种特定的结构存储在JDBM或内存中,比如,对一个很常见的条目例子:“男女搭配干活不累”来举例子,在这种数据结构中,将被存储为如下key-value键值对:
男->女搭配干活不累男女->搭配干活不累男女搭->配干活不累男女搭配->干活不累男女搭配干->活不累男女搭配干活->不累男女搭配干活不->累男女搭配干活不累->$那么这种数据存储结构有什么好处呢?当我们在对字符进行分词的时候,我们要根据词库条目来进行判断我们要分的字符串是否是词库中的一个条目,这个时候就涉及到对词库中条目进行查找的问题,当采用这种数据结构的时候,我们在查找对比的时候就有很高的速度,这也是为什么淑珍分词器在分词时的速度与词库中条目数量无关的主要原因。这个核心处理是由KeysGroup.java这个类来完成的。目前这款分词器已经应用在了一个搜索引擎网站中,如果想要了解这个1.1.9版本的速度及性能如何,可以访问这个搜索引擎网站:www.zihou.com欢迎朋友们拍砖指导。下载地址:http://www.zihou.com/download/ShuzhenAnalyzer-1.1.9.rar