词汇共现频率算法

其实这个题目发在这个技术性论坛里并不太合适，但是我想这里肯定有很多牛人能够我解决这个问题。首先说下我做的课题，这是我的毕业设计，比较难，是关于中文文本错误的自动修改。最近查了很多资料，将大体的思路弄明白了。我用的这种方法是其中最简单最方便的一种，先对文本进行分词，然后进行词单元的二元共现频率校验，如果共现频率大于某个阙值，则说明这个句子连续，句子中没有错误，否则有错。前期的分词算法根据我这几天查找文献已经做出来了，现在要解决的问题是二元词的共现频率问题，我已经写了一个统计二元词共现绝对次数的算法，但是对于频率还是没有头绪。我不明白共现的频率是怎样计算的，而文本的共现频率应该大于哪一个阙值才算是没有错误。如果频率是二元词共现绝对次数除以总词数，那么这个二元词的共现频率肯定是随着我训练的语料的增加而减小，这样的话该怎么判断文本的错误？不知道有没有哪位大虾做过这方面的研究，本人小菜鸟一个，本科的毕业论文就难成这样，离答辩没有多长是时间了，无奈之下才来这里求助，请各位懂得的大虾多多指教！！！万分拜谢！

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

高级阿。提醒一下，那个字是“阈(YU)值”不是阙(QUE)不是很理解你的算法的实质，说点我想到的，抛砖引玉一下：
1 分词，这个难度很大，而且是你后面的基础。和西方语言天然的空格分词相比，中文的分词难多了。当初Baidu之所以能起来，中文分词做得相对较好，是原因之一。当然，如果只是英文的，这点可以忽略
2 你的样本量要足够大，否则没有意义。是否考虑通过Google API之类把搜索引擎作为你的词汇的样本
3 应当有训练模式，增加识别准确律。相同的人或相同类型的文章，其用词、句法、词法等都会有一些共性