关于spark streaming与kafka整合的几个概念问题

lstp001 2015-08-14 06:02:00

例如kafka中有个topic有4个分区：
1）为了达到更好的并行性，我是不是应该建立4个receiver？每个receiver接收一个partition的数据。如果我建立4个receiver，这4个receiver是自动分布在不同的work上面么？
2）每个receiver是不是对应创建一个InputDStream？
3）如果我设置的时间间隔为2秒，每隔两秒每个receiver就创建一个RDD？

感觉自己理解的好混乱，哪位大神了解的话麻烦您讲解一下，感激不尽。

在KafkaUtils.createStream中有个参数为topics: Map[String, Int]，其中String对应的就是topic，Int对应的值是不是就是一个receiver中consumer的个数？

...全文

330 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

bottle123 2015-09-21

打赏
举报

回复

1、是的，应该是自动分布的 2、应该是 3、不是每隔2秒就生成一个rdd，是每隔2s将这段时间内接收到的数据做运算

lstp001 2015-08-14

打赏
举报

回复

自己顶一下~~~

1.Spark Streaming：大数据实时计算介绍2.Spark Streaming：DStream基本工作原理3.Spark Streaming：StreamingContext详解技能点4.Spark Streaming：输入DStream和Receiver详解5.Spark Streaming：DStream的transformation操作概览

现在工作中正在使用flink，避免对Spark流式处理的遗忘，在此进行总结。主要分为以下几个方面，均附有实际代码： Spark Streaming简介 Spark Streaming架构基础概念作业提交 Spark Streaming窗口操作 Spark Streaming容错性分析 WAL工作原理 Spark Streaming整合Kafka createStream与createDirectStream的区别整合kafka0.8与Kafka0.10的案例 Sp

spark整合kafka

Kafka是由Apache软件基金会开发的一个开源流处理平台,它使用Scala和Java语言编写，是一个基于Zookeeper系统的分布式发布订阅消息系统，该项目的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。 ①、Kafka的众多优点：其优点具体： (1)解耦。Kafka 具备消息系统的优点,只要生产者和消费者数据两端遵循接口约束，就可以自行扩展或修改数据处理的业务过程。 (2)高吞吐量、低延迟。即使在非常廉价的机器上,Kafka也能做到每秒处理几十万条消息，而它的延迟最低只有几毫

转载请务必注明原创地址为：https://dongkelun.com/2018/05/17/sparkKafka/ 前言首先要安装好kafka,这里不做kafka安装的介绍,本文是Spark Streaming入门教程，只是简单的介绍如何利用spark 连接kafka，并消费数据，由于博主也是才学，所以其中代码以实现为主，可能并不是最好的实现方式。 1、对应依赖根据kafka版本选...

1,261

社区成员

1,169

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章