【求助】和数据查重有关。 - 调试易

【求助】和数据查重有关。

关于物料管理的系统，由于物料没有唯一性的标识，所以客户设置了20多个字段来描述物料。
因此，为了避免数据冗余，客户要求在数据导入以及录入，要根据20多个字段计算表内是否有和输入的信息相似度较高的数据，有的话则提示用户，要求其确认是否同一物资。
如果是的话，则只进行数量上的累计，不产生新的一条物料信息；如果不是，则产生一条新的物料信息。
应该怎么做，如何计算相似度？

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

要相似到什么程度。 like%%嘛。
不能是like，这么多字段，再使用like的话就无法做了。
想了个办法。
数据总共有26个属性字段，必填字段6个。这6个字段属于管理层关心的属性，其他字段根据不同的部门而尤其规定是否为必填。只能把所有的必填字段（比如10个）进行比对，发现数据库内有某条数据和输入的数据的必填项一摸一样就判定为同一物料。然后逐次减少比对的字段（如：9,8,7）进行计算，然后提取出出现率较高的数据，由用户自己判定。
这么做如何？