sparkStreaming 与 sparksql整合问题

longdpt922 2020-07-07 11:55:33
准备用将mysql中的数据(20个实例,150个db左右)实时同步至KUDU,采用方案:
canal ->kafka -> sparkstreaming +sparksql ->kudu
目前topic设置为一个实例一个topic,同一topic的 batch interval中会存在跨db及table的JSON,需要逐条用sparksql解释后调用kudu sink保存,
想要逐条解释json串,就需要用的嵌套RDD,但是嵌套RDD好像不支持,群友们有碰到没?怎么处理,
...全文
3884 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
Therefore丶 2020-08-18
  • 打赏
  • 举报
回复
你好, spark在解析的时候,可以自己推断数据的schema信息(当然这可能会和你的预期不一致)。 故想要逐条解释json串,无需嵌套RDD 如解决了请采纳,如仍然未能解决,请私信我。

20,811

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧