hdoop集群下各hbase的数据是一样的吗？

场景：要把全国31个省的数据从原来的oracle数据库导入到现在的hadoop集群，采用大数据以提高效率。
现在的环境是10台机器，Hadoop集群
问题是Hadoop集群的工作原理是怎样的？是把31个省的数据都导入每台机器的hbase还是每台机器的hbase导几个省，总共是31个省？怎么保证效率？不懂吖刚接触。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

每个节点的数据不一样，就是把数据按照某种规则，分散到不同的节点，每个节点存储一部分数据，这样通过分布式各节点的并行工作来提升效率，当然，还可以配置数据冗余，也就是允许一份数据存在一个或多个备份，这样当一个节点坏掉时，其他节点上还有它的备份，不至于丢数据，一般来说，用HADOOP的数据不是太关键的数据，所以，通常不会配置冗余或冗余多份儿数据。
10台机器一般来说只能建一个集群，就是一个hbase实例，像一个oracle实例一样，但是数据是在9台或者8台（根据你的集群架构是否有主节点HA）存储。而不是每台机器上一个hbase实例。
效率是个技术活，如果每个省数据不多的话建议可以根据省份预建31个region，进行并行写入，一定要注意预分配region的大小，要是同时产生分裂（分裂风暴）就麻烦了。