请csdn的高手说下这个网站的原理。 - 调试易

请csdn的高手说下这个网站的原理。

近日发现一个论文相似度检测系统
地址是 http://www.paperpass.org
就是搞论文抄袭检测的
就是觉得这个系统蛮牛的，是用.net做的吧？算法是什么？请高手指点

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

我简单测试了一下，这个系统可能还处于字符串匹配级别
ab cd ef gh - ab cd ef g       90%    表现正常
ab cd ef gh - ab cd ef         72%    表现正常
ab cd ef gh - ef gh ab cd      27%    27%的评分有点低，继续
ab cd ef gh - gh ef cd ab      27%    期望低于27%，结果令人失望，顺序变，词没变，难道是基于词？
ab cd ef gh - g e c a          27%    修改词，结果大出所料，难道是跟词的首字母有关系？
ab cd ef gh - a c e f          63%    果然不出所料，别的字母呢？
ab cd ef gh - b d f h          63%    很清楚了ab cd ef gh - ab cd ef gh      100%
ab cd ef gh - ab cd ef gh ab cd ef gh 47%  句长影响很大，多余不再匹配，估计随着段落加长会削弱前面匹配的影响
ab cd ef gh - ab cd ef gh ab cd ef gh ab cd ef gh 31% 跟预想吻合以词、字、序列匹配计算的程序，我认为已经很有想法了！可以考虑加入些随机因素，这样程序不容易被分析
存在的char /总共字符
我测试过，应用的是Levenshtein Distance(LD)——计算两字符串相似度算法。至于怎么直接应用于文本，我也想知道。