是否可以将spark和hadoop分别部署在两个不同的物理主机集群上?
即spark部署在一堆硬盘很小,但是内存很大的物理主机上主机名spark1-n。hadoop部署在另外一堆硬盘比较大,内存一般的主机上,主机名hadoop1-n。spark部署好后默认远程访问这个hadoop集群,变成一个独立的spark计算集群,hadoop只是它计算数据的来源和数据结果的存放地,从物理机层面就是分离的。不过所有主机在同一个机房中,网络通信速度不存在问题。
主要想达到spark不与原有hadoop集群的hive争抢内存,还能发挥计算优势的目的。请问是否可以这样部署,具体应该注意哪些细节,spark配置时应该注意哪些部分。
即spark部署在一堆硬盘很小,但是内存很大的物理主机上主机名spark1-n。hadoop部署在另外一堆硬盘比较大,内存一般的主机上,主机名hadoop1-n。spark部署好后默认远程访问这个hadoop集群,变成一个独立的spark计算集群,hadoop只是它计算数据的来源和数据结果的存放地,从物理机层面就是分离的。不过所有主机在同一个机房中,网络通信速度不存在问题。
主要想达到spark不与原有hadoop集群的hive争抢内存,还能发挥计算优势的目的。请问是否可以这样部署,具体应该注意哪些细节,spark配置时应该注意哪些部分。
解决方案 »
免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货