ICTCLAS相比是目前作搜索引擎比较流行的一个分词系统了不过可能是由于版权的问题,中科院在发布时故意留了一些Bug在里面。比如那个著名的XML格式缓冲区溢出的问题。我修改了我所知道的分词系统里面的问题,并且作了一点点优化。
并且把它做了一个Java 版本的接口。分词速度,用XML格式分一篇Txt格式的《梦里花落知多少》,耗时16721ms,文件大小为329kb,生成文件4M多目前还没有遇到什么Bug.
如果有感兴趣代码的,可以发邮件到我这里([email protected]),或者留下你的邮箱。我会给你一份,还请大家多多指教!
并且把它做了一个Java 版本的接口。分词速度,用XML格式分一篇Txt格式的《梦里花落知多少》,耗时16721ms,文件大小为329kb,生成文件4M多目前还没有遇到什么Bug.
如果有感兴趣代码的,可以发邮件到我这里([email protected]),或者留下你的邮箱。我会给你一份,还请大家多多指教!
[email protected]
[email protected]
[email protected]
[email protected]
我再写论文呢,刚好要用到这个系统,在网上找了好久了,都下载不到,终于在这里发现了,真是太好了,先谢谢了!!
毕业设计急用,多谢lz了 ....orz
[email protected]