http://www.flashman.com.cn/blog/showlog.asp?cat_id=36&log_id=694本人感觉良好,除了效率上可能有待改进,还是刚搞出来的,没来得及开始优化.请大家多提意见,谢谢!

解决方案 »

  1.   

    还是google"人名识别"吧http://www.google.com/search?hl=zh-CN&q=%E4%BA%BA%E5%90%8D%E8%AF%86%E5%88%AB&lr=
      

  2.   

    用了好几种分词方式,
    1.先是扫描出全部词组并记下前后位置
    2.然后将有争议的部分进行词性规则匹配 如:江西省委 可能为"江西省ns(地名) 委g(语素)"和"江西ns(地名) 省委n(名词)" 按规则ns+n就可以正确分出"江西 省委"
    3.无规则匹配的按统计频率分值高低拆分
    4.用普通的正向最大匹配处理可能出现的碎片
    5.用语料库中收集到的词性规则尽可能好的调整词性
    6.基于模式规则和过滤规则的人名匹配(顺带还能识别其它一些未登录词)速度不是很好,主要在第二步分析词组组合和词性组合这块比较耗时,可能是寻径算法不好(推栈式),但整体如无特别需要因在可接受范围内.