关于spark streaming与kafka整合的几个概念问题

lstp001 2015-08-14 06:02:00
例如kafka中有个topic有4个分区:
1)为了达到更好的并行性,我是不是应该建立4个receiver?每个receiver接收一个partition的数据。如果我建立4个receiver,这4个receiver是自动分布在不同的work上面么?
2)每个receiver是不是对应创建一个InputDStream?
3)如果我设置的时间间隔为2秒,每隔两秒每个receiver就创建一个RDD?

感觉自己理解的好混乱,哪位大神了解的话麻烦您讲解一下,感激不尽。

在KafkaUtils.createStream中有个参数为topics: Map[String, Int],其中String对应的就是topic,Int对应的值是不是就是一个receiver中consumer的个数?
...全文
330 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
bottle123 2015-09-21
  • 打赏
  • 举报
回复
1、是的,应该是自动分布的 2、应该是 3、不是每隔2秒就生成一个rdd,是每隔2s将这段时间内接收到的数据做运算
lstp001 2015-08-14
  • 打赏
  • 举报
回复
自己顶一下~~~

1,261

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧