2、什么是Scala的伴生类和伴生对象?
3、spark有什么特点,处理大数据有什么优势?
4、Spark技术栈有哪些组件,每个组件都有什么功能,适合什么应用场景?
5、Apache Spark有哪些常见的稳定版本,Spark1.6.0的数字分别代表什么意思?
6、Mapreduce和Spark有什么区别与联系?
7、简单说一下hadoop和spark的shuffle相同和差异?
8、Spark为什么比mapreduce快?
9、简要描述Spark分布式集群搭建的步骤?
10、spark的有几种部署模式,每种模式特点?
11、spark集群运算的模式有哪些?
12、Spark有哪些算子,列举几个你熟悉的?
13、spark中的RDD是什么,有哪些特性?
14、谈谈spark中的宽窄依赖?
15、cache和pesist有什么区别?
16、spark rdd 如何区分宽依赖和窄依赖?
17、RDD中reduceBykey与groupByKey哪个性能好,为什么?
18、spark streming在实时处理时会发生什么故障,如何停止,解决?
19、spark streaming 读取kafka数据的两种方式?
20、spark 如何防止内存溢出?
21、如何解决spark中的数据倾斜问题?
22、spark中的数据倾斜的现象、原因、后果?
23、Spark有哪些优化方法?
24、spark中如何划分stage?
25、spark有哪些组件? ?
26、Spark中Work的主要工作是什么?
27、Spark driver的功能是什么?
28、如何配置spark master的HA?
29、Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?
30、Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?
31、Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?
32、Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper?
33、spark-submit的时候如何引入外部jar包?
34、spark面试需要储备哪些知识?
35、Spark on Mesos中,什么是的粗粒度分配,什么是细粒度分配,各自的优点和缺点是什么?
答案参考:Spark常见面试题