想把spark sql 的结果dataframe保存为csv到本地文件系统。但是集群上运行,只会在master那台机器的给定目录下生成_SUCESS文件,而真正的csv文件好像会随机生成在集群的其他机器上面。有没有办法指定这个文件的生成位置?起码能确定csv文件会在哪个机器上生成?

解决方案 »

  1.   

    HDFS就是这样,你要是能指定到某一台机器上,那就不是分布式的环境了,单机模式下可以保存到本地机器上
      

  2.   

    单机模式就是当前机器本地目录生成,集群模式,你就不要指定某台机器,直接指定hdfs:// 目录,这样相当于分布式文件系统,所有机器共享的文件目录。集群是yarn进行资源管理,随机选择分配机器为driver端,如果设置是本地目录,可能生成到某个机器的目录上。