数据库内目前有10W左右的稿件,稿件是存储在服务器硬盘上,用txt格式存储的,每篇大概5000字,现在要求对新录入的文章和已有的文章进行雷同甄别,也就是文本查重的问题,能不能通过程序来自动比对,用C#好现实吗?(注:web系统)

解决方案 »

  1.   

    可以分三步:
    (1) 先按关键字筛选出,内容相关的文件标题;
    (2) 在筛选结果中,输入和文章内容相关的一句话,选取得相似度比较高的;
    (3) 全文比较,计算新文章的字词在老文章中出现的百分比,如果在30%以上,就需要人工比较了。C#容易实现:
    读全文进字符串,用正则表达式识别。
      

  2.   

    雷同的意思并不是完全相同吧。 做这个有专门的算法
    参考
      

  3.   

    比对的时机选择:
    1.任何一个会员上传稿件的过程中就与系统中所有已有文章进行比对(已有文章很多,上传也频繁,我感觉会不会对服务器压力很大)
    2.系统管理员在服务器不繁忙时集中式的批量比对(比如在凌晨)我最想能实现的是第一种情况。
      

  4.   

    与所有文章比对速度太慢了。
    需要科学分类,并且保证旧文章分类正确;
    需要关键字,在尽可能小的范围内比对。
      

  5.   

    要用最大匹配算法的,不然你怎么计算字词出现的百分比?看我给你的链接