稿件系统文本比对问题 数据库内目前有10W左右的稿件,稿件是存储在服务器硬盘上,用txt格式存储的,每篇大概5000字,现在要求对新录入的文章和已有的文章进行雷同甄别,也就是文本查重的问题,能不能通过程序来自动比对,用C#好现实吗?(注:web系统) 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 可以分三步:(1) 先按关键字筛选出,内容相关的文件标题;(2) 在筛选结果中,输入和文章内容相关的一句话,选取得相似度比较高的;(3) 全文比较,计算新文章的字词在老文章中出现的百分比,如果在30%以上,就需要人工比较了。C#容易实现:读全文进字符串,用正则表达式识别。 雷同的意思并不是完全相同吧。 做这个有专门的算法参考 比对的时机选择:1.任何一个会员上传稿件的过程中就与系统中所有已有文章进行比对(已有文章很多,上传也频繁,我感觉会不会对服务器压力很大)2.系统管理员在服务器不繁忙时集中式的批量比对(比如在凌晨)我最想能实现的是第一种情况。 与所有文章比对速度太慢了。需要科学分类,并且保证旧文章分类正确;需要关键字,在尽可能小的范围内比对。 要用最大匹配算法的,不然你怎么计算字词出现的百分比?看我给你的链接 C# 怎么检测Windows系统是X86或者是X64呢? 同样的读取数据库,将结果存入硬盘和写到LISTVIW控制里面显示为什么时间差别很大! 电子邮件发送时对方服务器要求身份认证时怎么写(C#) 多个线程启动后,需要在3秒后将其关闭,如何实现?? 强类型如何控制填充数量 C# winform MenuStrip控件 关于update动态取得字段名,动态更新数据的帖子。急救 载入xml有错 十六进制值 0x1E)是无效的字符 请问这个XML怎么读数据? 从一个DataTable的全部列名添加到另外一个DataTable出现的错误? c# 字符串的比较 优先考虑速度 新手ArrayList学习
(1) 先按关键字筛选出,内容相关的文件标题;
(2) 在筛选结果中,输入和文章内容相关的一句话,选取得相似度比较高的;
(3) 全文比较,计算新文章的字词在老文章中出现的百分比,如果在30%以上,就需要人工比较了。C#容易实现:
读全文进字符串,用正则表达式识别。
参考
1.任何一个会员上传稿件的过程中就与系统中所有已有文章进行比对(已有文章很多,上传也频繁,我感觉会不会对服务器压力很大)
2.系统管理员在服务器不繁忙时集中式的批量比对(比如在凌晨)我最想能实现的是第一种情况。
需要科学分类,并且保证旧文章分类正确;
需要关键字,在尽可能小的范围内比对。