场景:要把全国31个省的数据从原来的oracle数据库导入到现在的hadoop集群,采用大数据以提高效率。
现在的环境是10台机器,Hadoop集群
问题是Hadoop集群的工作原理是怎样的?是把31个省的数据都导入每台机器的hbase还是每台机器的hbase导几个省,总共是31个省?怎么保证效率?  不懂吖  刚接触。

解决方案 »

  1.   

    每个节点的数据不一样,就是把数据按照某种规则,分散到不同的节点,每个节点存储一部分数据,这样通过分布式各节点的并行工作来提升效率,当然,还可以配置数据冗余,也就是允许一份数据存在一个或多个备份,这样当一个节点坏掉时,其他节点上还有它的备份,不至于丢数据,一般来说,用HADOOP的数据不是太关键的数据,所以,通常不会配置冗余或冗余多份儿数据。
      

  2.   

    10台机器一般来说只能建一个集群,就是一个hbase实例,像一个oracle实例一样,但是数据是在9台或者8台(根据你的集群架构是否有主节点HA)存储。而不是每台机器上一个hbase实例。
      

  3.   

    效率是个技术活,如果每个省数据不多的话建议可以根据省份预建31个region,进行并行写入,一定要注意预分配region的大小,要是同时产生分裂(分裂风暴)就麻烦了。