背景及需求:
1、数据分布:各个地区数据分服务器存放;
2、数据抽取:根据不同条件抽取各个服务器的数据,数据结构一致!每个抽取结果大约在10K-100K条记录之间;
3、数据碰撞:根据数据的个别字段,对抽取过来的数据进行比对,比如:包含相同记录ID的数据;
4、数据分析结果:相同ID在各个抽取结果中出现的个数,每条数据信息的详细信息!
目前的分析:
数据抽取都可以完成,抽取结果集:A、B、C、D;
ABCD相互比对,比对次数200——1000亿次。
问题:
由于数据量比较大,比较次数多,单服务器的查询比对就会有5万次左右,对服务器压力太大;目前的考虑方式是采用数据抽取结果为本地文本文件(文件大小大约为10M),由客户端软件完成对数据之间的碰撞。
急需解决的问题:
   本地文件的检索方式,如何达到高效的数据查询方式??
其他遇到过相关问题的朋友也希望可以参加讨论!拜托各位