最近开始忙着写论文啦,不过一直苦苦找不到啥思路,我的论文思路大概就是切词系统中未登陆词的一些处理方法,然后要把这一部分与构词法联系起来,大致就是“基于构词法原理来处理未登陆词的方法的设计与实现”,但是在未登陆词这一块我手头没有啥资料,看看哪位大虾有好的资料给小弟我共享一下,要是有啥想法或者是思路也行(给多少分都可以,不会低于100)。还有就是谁有这一块相关的源码之类的那是最好不过的,呵呵急啊!未登陆词这一块跟构词法相关的东西比较多,比如1.名称词处理模块:(1)有特殊前缀的名称词(小明,老张)(2)有特殊后缀的名称词(王老师,张经理)(3)中文姓名,英文姓名(王强,欧阳修)2.地名词处理模块 (1)有特殊后缀的合成地名词(新疆维吾尔族自治区,虞城县,大庆油田,卧龙自然保护区)(2)有特殊前后缀的合成地名词(西安电子科技大学)(3)有特殊动词标示(到 三里屯 来,前往 超市)3.重叠词处理模块 例如ABB型,ABAB型,AAB型 4.数量词处理模块 例如:基数词,序数词(2005,第一)5.概率词处理模块 例如:在上下文中反复出现的几个连在一起的词或字(可能构成新词) 例子:虽然 非典 来势汹汹,但只要全国人民团结一致对抗 非典,在不久的未来我们一定可以战胜 非典把这些帖出来只是想说明一下我的论文大体的研究思路,我们实验室现在已经有了一个现成的切词系统,但是在未登陆词这一块还没有具体的实现,我的论文就是做这一块的。还有我们的自然语言切词系统不是单独的一个系统,他只是为后面的语义理解和篇章理解做服务的,现在的切词系统可以说是机械分词和基于理解的分词相结合的分词系统。很有可能是切出几种结果,然后联系后面的语义理解,那个成功就将其反馈回切词词库,是一个自反馈的系统。是一个基于领域的切词系统,已经应用到产品中的。

解决方案 »

  1.   

    楼主想要的就象google或百度的索引分词一样,那样至少要有分词的库
      

  2.   

       声明一下,词库我们是有的,只不过是以.txt文件的形式存在工程下面的,没有用到数据库之类的,而且词库现在还不是很完善,因为基于教学领域的切词,所以词库用到的词比较有限,特别是对于人名、地名这方面的词库也是我正在整理中的,也是论文必须的一部分。下面是我们公司的网址,有兴趣的话可以上去看看http://www.52eft.com/,可不是作宣传,呵呵!
      

  3.   

    我的联系方式:QQ26907618 email:[email protected] 如果哪位GGJJ有这方面的资料,可以直接发到我的邮箱,我会追加分的,不胜感激,实现是急啊,马上就要交论文啦!