急!!!!纳西文 搜索引擎,关于纳西文的分词 本人正在做一个纳西文搜索引擎 ,觉得纳西文的分词算法应该比中文分词更简单,但不知道纳西文应该怎么分词,是一个什么原理 ,请高手们指教!!谢谢!!!!!!!!!!! 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 分词的算法我觉得可以根据汉字的来参考一下吧,常用的分词算法有正向最大匹配、逆向最大匹配、双向最大匹配、最佳匹配法、最少分词法、词网格算法等等。 最大匹配法(Forward Maximum Matching method, FMM法):选取包含6-8个汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应的单词为止。匹配的方向是从右向左。 逆向最大匹配法(Backward Maximum Matching method, BMM法):匹配方向与MM法相反,是从左向右。实验表明:对于汉语来说,逆向最大匹配法比最大匹配法更有效。 双向匹配法(Bi-direction Matching method, BM法):比较MM法与RMM法的切分结果,从而决定正确的切分。 最佳匹配法(Optimum Matching method, OM法):将词典中的单词按它们在文本中的出现频度的大小排列,高频度的单词排在前,频度低的单词排在后,从而提高匹配的速度。 兄弟,我正在学习搜索方面的知识,,你能给我发份这方面的资料吗?谢谢你了 ,,主要是做词法分析的,,、[email protected]再次谢谢你! struts2拦截器的destory方法 50分,Java 转换日期问题,急!!!!!!!!!!!!!!!!!!!!!!!!! JSP如何信息自动采集啊!求高手赐教 请教一下Jsp网页显示中文乱码的解决方式 java socket 谁给我改下这代码啊??? 在一个循环输出的结果集中<%=rs.getFloat("abc")%>怎样保留两位小数呢?另个导入这个类该怎么写? 求创新建议?? 关于下载的问题!在线等待!! 请问JSP页面NULL如何去掉???? 关于web页面和同步写xml文件的问题 火狐浏览器不支持encodeURL()函数吗?
常用的分词算法有正向最大匹配、逆向最大匹配、双向最大匹配、最佳匹配法、最少分词法、词网格算法等等。
最大匹配法(Forward Maximum Matching method, FMM法):选取包含6-8个汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应的单词为止。匹配的方向是从右向左。
逆向最大匹配法(Backward Maximum Matching method, BMM法):匹配方向与MM法相反,是从左向右。实验表明:对于汉语来说,逆向最大匹配法比最大匹配法更有效。
双向匹配法(Bi-direction Matching method, BM法):比较MM法与RMM法的切分结果,从而决定正确的切分。
最佳匹配法(Optimum Matching method, OM法):将词典中的单词按它们在文本中的出现频度的大小排列,高频度的单词排在前,频度低的单词排在后,从而提高匹配的速度。
主要是做词法分析的,,、
[email protected]
再次谢谢你!