用python编写数据处理程序,处理之后的海量数据保存成临时文件,然后保存至基于mysql的infobright数据库;
有以下问题请教:
1.海量数据用何种方式存数据库比较科学?主要考虑性能,因为数据处理和数据库服务器是分布式的。
2.如果用mysql的load infile...,性能怎样?不知load infile内部实现是怎样的?是读取文件,一条一条插入数据库吗?

解决方案 »

  1.   


    1) 分区表
    2) 直接分表
    3) 分表后不同表存储在不同数据库中。需要特别的AGENCY来平衡负载。
    LOAD FILE的效率要高于一条一条记录INSERT。
      

  2.   

    1 海量数据用分布式处理 或者不用关系数据库
    2 loaddata相当于一条一条insert
      

  3.   

    infobright有没有人用过?有个dlp工具导数据的,不知怎么用
      

  4.   


    loaddata infile好像不是一条一条insert吧?