一个项目:
一期: 主要的业务表:750万条数据, 字段比较少, 现在 Production 使用的 Sql Server 2005.我转成 mysql,按照 国家分区, 在按照国家进行统计的时候,体验不错, 如果统计所有国家总额的时候, 体验差一些. 
MySql 的测试环境: 笔记本 内存:12G; CPU: i7 2670QM; OS:Win8
二期:业务流程不变,但是数据扩展到 8-10亿. 我计算了一下, 1期数据 750万 占用空间 2G, 如果 6亿应该到 32G, 因此数据应该在 50G 左右. 我应该选择什么样的方案, 数据库只能选择 MySQL 或者 Postgresql:
1). 1台高配置的服务器, MySQL 分区, 分区可以按照 国家或地区(共280),年度(30年),业务类型(4种).
因为分区有 1024的限制, 不打算使用年度分区, 打算使用国家和业务类型分区, 业务类型可以合并为3种, 不超过 1024.    另外有1台从服务器, 作为备份. 2). 选择 mysql cluster 
    没有进行详细的测试, 不知道是否可行, 有几个问题?
    10亿条数据(50G左右), 是否能支撑?
    达到比较好的体验效果, 需要几台机器, 应该什么配置?
    另外: 系统不用考虑 写入, 也没有删除, 只有统计, 统计经常是跨10年的, 数据的写入都是晚上. 除了上面的方案, 还有什么其他方案可选择?
谢谢!

解决方案 »

  1.   

    数据不多  可以考虑mysql的数据仓库解决方案infobright  单台机器32G内存应该就可以
      

  2.   

    性能上应该没有问题,毕竟目前很多大数据就采用的MYSQL。
      

  3.   

    我知道选择MySql 应该是可以的, 但是应该采取什么样的方案?
    1. rucypli 的 数据仓库解决方案infobright, 但是开源的限制比较多. 
    2. 分区, 几千万条没问题, 但是上亿条之后,我就不知道了. 
    3. mysql cluster 就我的数据量来说, 50G, 我觉得应该可以,但是没有实际测试过. 
      

  4.   

    从数据级别来说mysql是没有任何问题的,
      

  5.   

    选MySQL和PostgreSQL是因为成本吗?
    如果是,那么infobright IEE的是需要成本的,ICE虽然不需要成本,但很多你需要的都不包括。不建议采用。
      

  6.   

    谢谢, 回复, 是考虑成本能, 不打算用 infobright IEE, 用他成本还是不低的. 
    mysql 按照国家分区, 加到 3千万条的时候, 第1次查询已经比较慢了. 
    还没去处理更多. 
      

  7.   

    上面测试是在 笔记本上进行的, 如果在服务器上性能上应该会好很多吧? 除了 cpu,内存外, 硬盘是 raid 5, IO 也会提高很多. 如果使用 mysql cluster 会是怎么样?
      

  8.   

    我有没有必要加上 Hadoop?