请大家来测试我的中文分词(带人名识别)模块

http://www.flashman.com.cn/blog/showlog.asp?cat_id=36&log_id=694本人感觉良好,除了效率上可能有待改进,还是刚搞出来的,没来得及开始优化.请大家多提意见,谢谢!

还是google"人名识别"吧http://www.google.com/search?hl=zh-CN&q=%E4%BA%BA%E5%90%8D%E8%AF%86%E5%88%AB&lr=
用了好几种分词方式,
1.先是扫描出全部词组并记下前后位置
2.然后将有争议的部分进行词性规则匹配如:江西省委可能为"江西省ns(地名) 委g(语素)"和"江西ns(地名) 省委n(名词)" 按规则ns+n就可以正确分出"江西省委"
3.无规则匹配的按统计频率分值高低拆分
4.用普通的正向最大匹配处理可能出现的碎片
5.用语料库中收集到的词性规则尽可能好的调整词性
6.基于模式规则和过滤规则的人名匹配(顺带还能识别其它一些未登录词)速度不是很好,主要在第二步分析词组组合和词性组合这块比较耗时,可能是寻径算法不好(推栈式),但整体如无特别需要因在可接受范围内.