有3个表,TableA,TableB,TableC,均存放 商品(goods)的信息,每个商品有3个特征码 conditionCode1、conditionCode2、conditionCode3 。只要有其中2个特征码就可以确定该商品。特征码在3个表中均是对应的,不会出现表A特征码1跑到表2的特征码2中去。
比如
Id conditionCode1 conditionCode2 conditionCode3
0021 Adses     4657 AD17
0022 d7891    sg54d
0023 45es d78
0024    dsd87 现3个表中都存在:
1、同一个表中,同一个商品,可能出现多条记录,每条记录的3个特征码有可能全部或部分缺失或者错误;(比如0021有可能和 0023是同一件商品等)
2、对同一个商品在3个表中,有可能不会同时出现(有可能只出现在1或2张表中,且无法确定是哪些表)(比如 0021的该商品可能只存在在A、C 2张表中,但无法确定)
3、因为特征码有可能信息错误,所以也无法确定该商品在某张表中是否是正确,也就无法判断是否是真的该商品(即使该条记录有3个特征码)现在想通过3个表的数据进行对比,生成一张全新的商品表(在新表中,每个商品只能存在一条记录,该条记录里还必须包括确定该记录的表及相应ID),里面能存放对比出来的真正商品,我大体的想法是只要有一个特征码在随便2个表中有相同的数据就提取做集合,轮询3个表及每张表的3个特征码,这样,有可能同一件商品中,会出现不可预计的条数。通过这些记录,检查某个特征码出现的次数最多来确定某个特征码,只要能生成2个(但无法预计生成哪2个特征码),来确定该商品。可能还有其他情况等。上述记录混乱的情况是因为商品信息来源渠道的不同造成的。所以想理出来。每张表的数据量大概在3W-10W间。