sparkStreaming 与 sparksql整合问题

longdpt922 2020-07-07 11:55:33

准备用将mysql中的数据（20个实例，150个db左右）实时同步至KUDU，采用方案：
canal ->kafka -> sparkstreaming +sparksql ->kudu
目前topic设置为一个实例一个topic，同一topic的 batch interval中会存在跨db及table的JSON,需要逐条用sparksql解释后调用kudu sink保存，
想要逐条解释json串，就需要用的嵌套RDD，但是嵌套RDD好像不支持，群友们有碰到没？怎么处理，

...全文

3884 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

Therefore丶 2020-08-18

打赏
举报

回复

你好， spark在解析的时候，可以自己推断数据的schema信息（当然这可能会和你的预期不一致）。故想要逐条解释json串，无需嵌套RDD 如解决了请采纳，如仍然未能解决，请私信我。

第2部分（第8~11章）讲解Spark的原生态组件，包括SparkCore、SparkSQL、SparkStreaming、DataFrame，以及介绍Scala、SparkAPI、SparkSQL、SparkStreaming、DataFrame原理和CDH版本环境下实战操作，其中Flume和Kafka...

DataFrame与RDD的两种转换方式，Spark SQL的内置函数、开窗函数、UDF、UDAF，Spark Streaming的Kafka Direct API、updateStateByKey、transform、滑动窗口、foreachRDD性能优化、与Spark SQL整合使用、持久化、...

1.Spark Streaming：大数据实时计算介绍2.Spark Streaming：DStream基本工作原理3.Spark Streaming：StreamingContext详解技能点4.Spark Streaming：输入DStream和Receiver详解5.Spark Streaming：DStream的...

这个文件是用来在Idea...JDK规定, Spark-core, SparkSQL, mysql依赖的jar包,SparkStreaming, SparkStreaming + Kafka, 向kafka 生产数据需要包, 连接 Redis 需要的包,Scala 包. 以及使我们能在idea中创建scala类的插件

第五章、SparkStreaming 模块 1.Streaming流式应用概述 2.Streaming 计算模式 3.SparkStreaming计算思路 4.入门案例 5.SparkStreaming工作原理 6.DStream及函数 7.集成Kafka 8.案例：百度搜索风云榜（实时ELT、窗口...

Hadoop生态社区

20,811

社区成员

4,691

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章