spark streaming能不能每分钟查询数据库转化成rdd和实时对比

Container123 2020-03-09 11:27:37

我有个需求实时数据过来后，可能存在主体不全的情况。
比如第一批次出现了A，值为4.第二批次来的实时数据没有A这个主体了。我需要补充A的值为0，然后给后面推送。
现在我采取的方法是每批次的实时数据为一个rdd，然后driver端再将从数据库查询到的数据转化为rdd，二者进行fullOuterJoin,然后将实时有数据没有的插入到数据库。数据库有实时没有的给实时数据补充。
想请教一下这样的方法可以吗？会不会造成driver端压力过大，程序挂断频繁呢？
或者还有什么更好的方法？

...全文

109 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

Spark Streaming是核心Spark API的扩展，可实现实时数据流的可伸缩，高吞吐量，容错流处理。数据可以从像卡夫卡，室壁运动，或TCP套接字许多来源摄入，并且可以使用与像高级别功能表达复杂的算法来处理map，reduce，...

Spark Streaming用于流式数据(实时数据)的处理。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、window等进行运算...

spark Streaming是对核心Spark API的一个扩展，用来实现对实时流数据的处理，并且具有很好的可扩展性、高吞吐量和容错性。Spark Streaming支持从多种数据源提取数据，例如：Kafka、Flume、Kinesis，或者是TCP套接子...

spark streaming详细介绍

Spark 1.5 以前版本，用户如果要限制 Receiver 的数据接收速率，可以通过设置静态配制...为了更好的协调数据接收速率与资源处理能力，1.5 版本开始 Spark Streaming 可以动态控制数据接收速率来适配集群数据处理能力。

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章