其实这个题目发在这个技术性论坛里并不太合适,但是我想这里肯定有很多牛人能够我解决这个问题。首先说下我做的课题,这是我的毕业设计,比较难,是关于中文文本错误的自动修改。最近查了很多资料,将大体的思路弄明白了。我用的这种方法是其中最简单最方便的一种,先对文本进行分词,然后进行词单元的二元共现频率校验,如果共现频率大于某个阙值,则说明这个句子连续,句子中没有错误,否则有错。前期的分词算法根据我这几天查找文献已经做出来了,现在要解决的问题是二元词的共现频率问题,我已经写了一个统计二元词共现绝对次数的算法,但是对于频率还是没有头绪。我不明白共现的频率是怎样计算的,而文本的共现频率应该大于哪一个阙值才算是没有错误。如果频率是二元词共现绝对次数除以总词数,那么这个二元词的共现频率肯定是随着我训练的语料的增加而减小,这样的话该怎么判断文本的错误?不知道有没有哪位大虾做过这方面的研究,本人小菜鸟一个,本科的毕业论文就难成这样,离答辩没有多长是时间了,无奈之下才来这里求助,请各位懂得的大虾多多指教!!!万分拜谢!

解决方案 »

  1.   

    高级阿。提醒一下,那个字是“阈(YU)值”不是阙(QUE)不是很理解你的算法的实质,说点我想到的,抛砖引玉一下:
    1 分词,这个难度很大,而且是你后面的基础。和西方语言天然的空格分词相比,中文的分词难多了。当初Baidu之所以能起来,中文分词做得相对较好,是原因之一。当然,如果只是英文的,这点可以忽略
    2 你的样本量要足够大,否则没有意义。是否考虑通过Google API之类把搜索引擎作为你的词汇的样本
    3 应当有训练模式,增加识别准确律。相同的人或相同类型的文章,其用词、句法、词法等都会有一些共性