近日发现一个论文相似度检测系统   
地址是 http://www.paperpass.org   
就是搞论文抄袭检测的
就是觉得这个系统蛮牛的,是用.net做的吧?算法是什么? 请高手指点
 

解决方案 »

  1.   

    我简单测试了一下,这个系统可能还处于字符串匹配级别
    ab cd ef gh - ab cd ef g       90%    表现正常  
    ab cd ef gh - ab cd ef         72%    表现正常
    ab cd ef gh - ef gh ab cd      27%    27%的评分有点低,继续
    ab cd ef gh - gh ef cd ab      27%    期望低于27%,结果令人失望,顺序变,词没变,难道是基于词?
    ab cd ef gh - g e c a          27%    修改词,结果大出所料,难道是跟词的首字母有关系?
    ab cd ef gh - a c e f          63%    果然不出所料,别的字母呢?
    ab cd ef gh - b d f h          63%    很清楚了ab cd ef gh - ab cd ef gh      100%
    ab cd ef gh - ab cd ef gh ab cd ef gh 47%  句长影响很大,多余不再匹配,估计随着段落加长会削弱前面匹配的影响
    ab cd ef gh - ab cd ef gh ab cd ef gh ab cd ef gh 31% 跟预想吻合以词、字、序列匹配计算的程序,我认为已经很有想法了!可以考虑加入些随机因素,这样程序不容易被分析    
      

  2.   

    存在的char /总共字符 
      

  3.   

    我测试过,应用的是Levenshtein Distance(LD)——计算两字符串相似度算法。至于怎么直接应用于文本,我也想知道。