背景及需求:
1、数据分布:各个地区数据分服务器存放;
2、数据抽取:根据不同条件抽取各个服务器的数据,数据结构一致!每个抽取结果大约在10K-100K条记录之间;
3、数据碰撞:根据数据的个别字段,对抽取过来的数据进行比对,比如:包含相同记录ID的数据;
4、数据分析结果:相同ID在各个抽取结果中出现的个数,每条数据信息的详细信息!
目前的分析:
数据抽取都可以完成,抽取结果集:A、B、C、D;
ABCD相互比对,比对次数200——1000亿次。
问题:
由于数据量比较大,比较次数多,单服务器的查询比对就会有5万次左右,对服务器压力太大;目前的考虑方式是采用数据抽取结果为本地文本文件(文件大小大约为10M),由客户端软件完成对数据之间的碰撞。
急需解决的问题:
本地文件的检索方式,如何达到高效的数据查询方式??
其他遇到过相关问题的朋友也希望可以参加讨论!拜托各位
1、数据分布:各个地区数据分服务器存放;
2、数据抽取:根据不同条件抽取各个服务器的数据,数据结构一致!每个抽取结果大约在10K-100K条记录之间;
3、数据碰撞:根据数据的个别字段,对抽取过来的数据进行比对,比如:包含相同记录ID的数据;
4、数据分析结果:相同ID在各个抽取结果中出现的个数,每条数据信息的详细信息!
目前的分析:
数据抽取都可以完成,抽取结果集:A、B、C、D;
ABCD相互比对,比对次数200——1000亿次。
问题:
由于数据量比较大,比较次数多,单服务器的查询比对就会有5万次左右,对服务器压力太大;目前的考虑方式是采用数据抽取结果为本地文本文件(文件大小大约为10M),由客户端软件完成对数据之间的碰撞。
急需解决的问题:
本地文件的检索方式,如何达到高效的数据查询方式??
其他遇到过相关问题的朋友也希望可以参加讨论!拜托各位
解决方案 »
- TreeSet 里可以插入重复元素嘛
- 新手上路 关于JAVA中子类和父类问题
- swing applet嵌入html中的问题
- hibernate+MSSQL2000 关于boolean类型的问题
- 字符串截取
- JDBC连接SQLServer6.5和2000的问题
- 对于打印的接口调用这一层面,java能做么
- 怎样防止在JTable界面上移动列(JTable,TableColumnModel)
- 怎么样把基本数据类型转换为引用类型啊?唉,菜鸟
- 我用微软的sqlserver的jdbc驱动时,出现text字段乱码,其他如varchar字段正常的现象,怎么办?
- 如何打印jtable,用打印机
- 请教一个jmf的设计问题
文本文件存储是字段用tab分割,每行一条记录;有没有何种方法,可以直接将该文本作为数据库处理,如果这样的话,联合ABCD四个集合,就可以统计查询??
select unid,count(*) from A union B union C union order by unid;