其实这个题目发在这个技术性论坛里并不太合适,但是我想这里肯定有很多牛人能够我解决这个问题。首先说下我做的课题,这是我的毕业设计,比较难,是关于中文文本错误的自动修改。最近查了很多资料,将大体的思路弄明白了。我用的这种方法是其中最简单最方便的一种,先对文本进行分词,然后进行词单元的二元共现频率校验,如果共现频率大于某个阙值,则说明这个句子连续,句子中没有错误,否则有错。前期的分词算法根据我这几天查找文献已经做出来了,现在要解决的问题是二元词的共现频率问题,我已经写了一个统计二元词共现绝对次数的算法,但是对于频率还是没有头绪。我不明白共现的频率是怎样计算的,而文本的共现频率应该大于哪一个阙值才算是没有错误。如果频率是二元词共现绝对次数除以总词数,那么这个二元词的共现频率肯定是随着我训练的语料的增加而减小,这样的话该怎么判断文本的错误?不知道有没有哪位大虾做过这方面的研究,本人小菜鸟一个,本科的毕业论文就难成这样,离答辩没有多长是时间了,无奈之下才来这里求助,请各位懂得的大虾多多指教!!!万分拜谢!
解决方案 »
- 有一道题哪个高手会算啊
- ibatis insert新记录后用last_insert_id()获取主键不起作用
- tomcat启动没有日志??
- 请各位高手看过来,特别是在职的,小弟有急事请教。
- middlegen-hibernate配置问题 高手帮忙 (没分了 见谅 )
- 怎么把jbuilder2005设置一下,使得其带的tomcat5可以默认支持中文?
- 我是这样配置tomcat5的,但是不能用啊。请帮助我!!!
- 现有两个基于struts建立的站点,当要在一个站点中通过相对路径访问另一个站点时该如何实现
- POI如何读取word中的合并单元格内容?
- java中的这个声明赋值访问编译成功了,为什么会出现这种情况呢
- 流媒体播放的后台怎么做
- 很奇怪的Struts2,多次访问同一个Action?
1 分词,这个难度很大,而且是你后面的基础。和西方语言天然的空格分词相比,中文的分词难多了。当初Baidu之所以能起来,中文分词做得相对较好,是原因之一。当然,如果只是英文的,这点可以忽略
2 你的样本量要足够大,否则没有意义。是否考虑通过Google API之类把搜索引擎作为你的词汇的样本
3 应当有训练模式,增加识别准确律。相同的人或相同类型的文章,其用词、句法、词法等都会有一些共性