spark-steaming 获取kafka的疑惑(on yarn)
普凡 2017-02-26 02:43:09 我们用kafka流式计算常见的架构就是kafka--spark-steaming(on yarn)--DB
我们在提交spark任务时,一般类似这样的配置(基于pyspark):
spark-submit --class org.apache.spark.examples.XXXX\
--master yarn \
--num-executors 4 \
--driver-memory 2g \
--executor-memory 3g \
--executor-cores 4 \
....
我的问题是当启动这个job取消费一个topic的时候,是启动了一个drive负责接收数据然后发送给4个executors去执行map&reduce?还是4个executors或并发去kafka不同的patition获取数据,然后各自在执行map&reduce呢??
谢谢