本帖最后由 xuzuning 于 2012-04-10 08:42:28 编辑

解决方案 »

  1.   

    不是有個很好用的分詞類嘛...貌似分詞這個話題在這個板塊經常也會提起,你不妨使用CSDN的超爛功能之一"搜索"碰碰運氣.
      

  2.   

    这个代码是你写的吗?如果是,那为什么不会改?按最大匹配原则应该只匹配出“中国人民解放军”
    而其中的位置:“中国”“中国人”“中国人民”都不应该匹配出来
    这几个词的起点都是 9,也就是说在匹配到的时候你并没有改变文本的指针
    你这是最多匹配而不是最大匹配,就是取出最多的可能组合也可以说是允许嵌套
    既然如此,你在匹配到“中国人民解放军”之后应该从12的“国”开始继续下一轮匹配,而不是从30的“解”开始在数据组织上 children 这个层次显得很多余,应该去掉