关于spark streaming与kafka整合的几个概念问题
例如kafka中有个topic有4个分区:
1)为了达到更好的并行性,我是不是应该建立4个receiver?每个receiver接收一个partition的数据。如果我建立4个receiver,这4个receiver是自动分布在不同的work上面么?
2)每个receiver是不是对应创建一个InputDStream?
3)如果我设置的时间间隔为2秒,每隔两秒每个receiver就创建一个RDD?
感觉自己理解的好混乱,哪位大神了解的话麻烦您讲解一下,感激不尽。
在KafkaUtils.createStream中有个参数为topics: Map[String, Int],其中String对应的就是topic,Int对应的值是不是就是一个receiver中consumer的个数?