想请教一下各位大虾如果一个RDD有2个partitions 分布在2个机器上 (一个机器上一个),
如果每个分区中的数据的key的hash值等于所在分区的index,那么在hash的过程中能保证物理机器中没有数据移动么?
比如在分区0上数据是 (0,0), 在分区1上是(1,1),
那么hash re-partitioning的时候 能保证 (0,0) 和 (1,1) 还在原来所在物理机器上么?
有什么方法能保证这样么? 因为这样 在实际操作中可以节省网络消耗先谢了
如果每个分区中的数据的key的hash值等于所在分区的index,那么在hash的过程中能保证物理机器中没有数据移动么?
比如在分区0上数据是 (0,0), 在分区1上是(1,1),
那么hash re-partitioning的时候 能保证 (0,0) 和 (1,1) 还在原来所在物理机器上么?
有什么方法能保证这样么? 因为这样 在实际操作中可以节省网络消耗先谢了
解决方案 »
免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货