spark-steaming 获取kafka的疑惑(on yarn)

普凡 2017-02-26 02:43:09

我们用kafka流式计算常见的架构就是kafka--spark-steaming(on yarn)--DB
我们在提交spark任务时，一般类似这样的配置(基于pyspark)：
spark-submit --class org.apache.spark.examples.XXXX\
--master yarn \
--num-executors 4 \
--driver-memory 2g \
--executor-memory 3g \
--executor-cores 4 \
....
我的问题是当启动这个job取消费一个topic的时候，是启动了一个drive负责接收数据然后发送给4个executors去执行map&reduce？还是4个executors或并发去kafka不同的patition获取数据，然后各自在执行map&reduce呢？？

谢谢

...全文

346 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

Maven组件如下： <dependency> <groupId>org.apache.spark</groupId> <...spark-streaming-kafka-0-10_2.11</artifactId> <version>2.3.0</version><...

报错org/apache/kafka/clients/consumer/Consumer 网上试了几个办法都没解决，最后把kafka-clients-0.10.0.1.jar和spark-streaming-kafka-0-10_2.11-2.4.5.jar放到master机器spark的jars目录里就不报这个错了，仅供...

Spark天然支持集成Kafka, 基于Spark读取Kafka中的数据, 同时可以实施精准一次（仅且只会处理一次）的语义, 作为程序员, 仅需要关心如何处理消息数据即可, 结构化流会将数据读取过来, 转换为一个DataFrame的对象, ...

1.4 spark 消费 kafka 消息 1.4.1 配置依赖包连接需要依赖两个包：否则无法连接，具体可参照官网：。下载完毕后，将其拷贝到目录下： 1.4.2 编写 SparkStreaming 程序该程序是一个简单的程序，

本文主要记录使用SparkStreaming从Kafka里读取数据，... 2.yarn-client模式运行相关文章：1.Spark之PI本地2.Spark之WordCount集群3.SparkStreaming之读取Kafka数据4.SparkStreaming之使用redis保存Kafka的Offset5.S...

1,270

社区成员

1,170

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章