1、scala 语言有什么特点,相比java有什么优点?2、什么是Scala的伴生类和伴生对象?3、spark有什么特点,处理大数据有什么优势?4、Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景?5、Apache Spark有哪些常见的稳定版本,Spark1.6.0的数字分别代表什么意思?6、Mapreduce和Spark有什么区别与联系?7、简单说一下hadoop和spark的shuffle相同和差异?8、Spark为什么比mapreduce快?9、简要描述Spark分布式集群搭建的步骤?10、spark的有几种部署模式,每种模式特点?11、spark集群运算的模式有哪些?12、Spark有哪些算子,列举几个你熟悉的?13、spark中的RDD是什么,有哪些特性?14、谈谈spark中的宽窄依赖?15、cache和pesist有什么区别?16、spark rdd 如何区分宽依赖和窄依赖?17、RDD中reduceBykey与groupByKey哪个性能好,为什么?18、spark streming在实时处理时会发生什么故障,如何停止,解决?19、spark streaming 读取kafka数据的两种方式?20、spark 如何防止内存溢出?21、如何解决spark中的数据倾斜问题?22、spark中的数据倾斜的现象、原因、后果?23、Spark有哪些优化方法?24、spark中如何划分stage?25、spark有哪些组件? ?26、Spark中Work的主要工作是什么?27、Spark driver的功能是什么?28、如何配置spark master的HA?29、Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?30、Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?31、Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?32、Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?33、spark-submit的时候如何引入外部jar包?34、spark面试需要储备哪些知识?35、Spark on Mesos中,什么是的粗粒度分配,什么是细粒度分配,各自的优点和缺点是什么?答案参考:Spark常见面试题