SPARK dataframe本地化求助 - 调试易

SPARK dataframe本地化求助

想把spark sql 的结果dataframe保存为csv到本地文件系统。但是集群上运行，只会在master那台机器的给定目录下生成_SUCESS文件，而真正的csv文件好像会随机生成在集群的其他机器上面。有没有办法指定这个文件的生成位置？起码能确定csv文件会在哪个机器上生成?

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

HDFS就是这样，你要是能指定到某一台机器上，那就不是分布式的环境了，单机模式下可以保存到本地机器上
单机模式就是当前机器本地目录生成，集群模式，你就不要指定某台机器，直接指定hdfs:// 目录，这样相当于分布式文件系统，所有机器共享的文件目录。集群是yarn进行资源管理，随机选择分配机器为driver端，如果设置是本地目录，可能生成到某个机器的目录上。