spark-steaming 获取kafka的疑惑(on yarn)

普凡 2017-02-26 02:43:09
我们用kafka流式计算常见的架构就是kafka--spark-steaming(on yarn)--DB
我们在提交spark任务时,一般类似这样的配置(基于pyspark):
spark-submit --class org.apache.spark.examples.XXXX\
--master yarn \
--num-executors 4 \
--driver-memory 2g \
--executor-memory 3g \
--executor-cores 4 \
....
我的问题是当启动这个job取消费一个topic的时候,是启动了一个drive负责接收数据然后发送给4个executors去执行map&reduce?还是4个executors或并发去kafka不同的patition获取数据,然后各自在执行map&reduce呢??

谢谢
...全文
340 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

1,258

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧