ICTCLAS相比是目前作搜索引擎比较流行的一个分词系统了不过可能是由于版权的问题,中科院在发布时故意留了一些Bug在里面。比如那个著名的XML格式缓冲区溢出的问题。我修改了我所知道的分词系统里面的问题,并且作了一点点优化。
并且把它做了一个Java 版本的接口。分词速度,用XML格式分一篇Txt格式的《梦里花落知多少》,耗时16721ms,文件大小为329kb,生成文件4M多目前还没有遇到什么Bug.
如果有感兴趣代码的,可以发邮件到我这里([email protected]),或者留下你的邮箱。我会给你一份,还请大家多多指教!

解决方案 »

  1.   

    请小贝发给我一份^_^,多谢了,目前在研究Lucene,正好要用到分词~
    [email protected]
      

  2.   

    正被溢出弄得头大呢,能发给我一份么?谢谢!
    [email protected]
      

  3.   

    我也正需要,谢谢了
    [email protected]
      

  4.   

    终于找到了,谢谢楼主。[email protected]
      

  5.   

    小贝给我发一份吧 谢谢!  现在正需要呢 [email protected]
      

  6.   

    请小贝发给我一份,先谢了,目前在研究nutch,默认的效果不大好
    [email protected]
      

  7.   

    [email protected],给我一份,论文急用,多谢
      

  8.   

    终于找到了,谢谢楼主。[email protected]
      

  9.   

    [email protected]
    我再写论文呢,刚好要用到这个系统,在网上找了好久了,都下载不到,终于在这里发现了,真是太好了,先谢谢了!!
      

  10.   

    请给我一份啊,谢谢楼主了[email protected]
      

  11.   

    [email protected]
    毕业设计急用,多谢lz了 ....orz
      

  12.   

    给我一份,[email protected],谢了!
      

  13.   

    正在做东西,正需要,谢谢!!
    [email protected]