请大家来测试我的中文分词(带人名识别)模块 http://www.flashman.com.cn/blog/showlog.asp?cat_id=36&log_id=694本人感觉良好,除了效率上可能有待改进,还是刚搞出来的,没来得及开始优化.请大家多提意见,谢谢! 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 还是google"人名识别"吧http://www.google.com/search?hl=zh-CN&q=%E4%BA%BA%E5%90%8D%E8%AF%86%E5%88%AB&lr= 用了好几种分词方式,1.先是扫描出全部词组并记下前后位置2.然后将有争议的部分进行词性规则匹配 如:江西省委 可能为"江西省ns(地名) 委g(语素)"和"江西ns(地名) 省委n(名词)" 按规则ns+n就可以正确分出"江西 省委"3.无规则匹配的按统计频率分值高低拆分4.用普通的正向最大匹配处理可能出现的碎片5.用语料库中收集到的词性规则尽可能好的调整词性6.基于模式规则和过滤规则的人名匹配(顺带还能识别其它一些未登录词)速度不是很好,主要在第二步分析词组组合和词性组合这块比较耗时,可能是寻径算法不好(推栈式),但整体如无特别需要因在可接受范围内. 数据库2个表数据同步更新 请教java版的《数据结构》的书,最好能有详细的平衡二叉排序树和十字链表的内容,大家有知道的吗?谢谢 我讨厌构造函数重载,请大家帮我分析下实例,注释下 这里为什么不给我打包了? 一个关于图片显示的问题 请教传送中文问题! 初学者问 在jbuilder6中如何实现鼠标伦的滚动? java中文件处理问题 求助:repaint()被无限调用 怎么样用键盘上下键控制焦点在控件之间的移动 如何配置tomcat使得输入的url如果无扩展名,则默认为.jsp,如http://localhost/aa等价于http://localhost/aa.jsp
1.先是扫描出全部词组并记下前后位置
2.然后将有争议的部分进行词性规则匹配 如:江西省委 可能为"江西省ns(地名) 委g(语素)"和"江西ns(地名) 省委n(名词)" 按规则ns+n就可以正确分出"江西 省委"
3.无规则匹配的按统计频率分值高低拆分
4.用普通的正向最大匹配处理可能出现的碎片
5.用语料库中收集到的词性规则尽可能好的调整词性
6.基于模式规则和过滤规则的人名匹配(顺带还能识别其它一些未登录词)速度不是很好,主要在第二步分析词组组合和词性组合这块比较耗时,可能是寻径算法不好(推栈式),但整体如无特别需要因在可接受范围内.