sparkStreaming 与 sparksql整合问题
准备用将mysql中的数据(20个实例,150个db左右)实时同步至KUDU,采用方案:
canal ->kafka -> sparkstreaming +sparksql ->kudu
目前topic设置为一个实例一个topic,同一topic的 batch interval中会存在跨db及table的JSON,需要逐条用sparksql解释后调用kudu sink保存,
想要逐条解释json串,就需要用的嵌套RDD,但是嵌套RDD好像不支持,群友们有碰到没?怎么处理,