sparkstreaming mapWithState状态保存问题

book_reinforce 2017-03-22 10:22:21

我在spark流处理中调用mapWithState保留KEY的最新状态，现在的问题是当我把流重启后原先保留的状态都不存在了，有什么办法能在重启流后还能保留以前的状态吗？

...全文

432 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

尘世如戏 2020-11-27

打赏
举报

回复

楼主最后解决了吗

程序员Aike 2018-11-17

打赏
举报

回复

为什么后面会自动加上其他链接无语

程序员Aike 2018-11-17

打赏
举报

回复

https://blog.csdn.net/zangdaiyang1991/article/details/84099722

程序员Aike 2018-11-17

打赏
举报

回复

https://blog.csdn.net/zangdaiyang1991/article/details/84099722

pucheung 2018-09-16

打赏
举报

回复

使用checkpoint 方式，保存状态

1.Spark Streaming：大数据实时计算介绍2.Spark Streaming：DStream基本工作原理3.Spark Streaming：StreamingContext详解技能点4.Spark Streaming：输入DStream和Receiver详解5.Spark Streaming：DStream的transformation操作概览

背景刚接触spark-streaming，然后写了一个WordCount程序，对于不停流进来的数据，需要累加单词出现的次数，这时就需要把前一段时间的结果持久化，而不是数据计算过后就抛弃，在网上搜索到spark-streaming可以通过updateStateByKey和mapWithState来实现这种有状态的流管理，后者虽然在spark1.6.x还是一个实验性的实现，不过由于它的实现思想以及性能都...

与updateStateByKey方法相比，

掌握 DStream数据累加函数updateStateByKey。掌握 DStream数据累加函数mapWithState。1、每5秒钟计算一次每个单词出现的累加数量。（使用Socket数据源）在DStream中支持跨批次数据执行计算时保持任意状态。在Spark第一代流处理(Spark Streaming)中，这需要手工实现。硬件：x86_64 ubuntu 16.04服务器软件：JDK 1.8，Spark-2.3.2，Hadoop-2.7.31、在终端窗口下，输入如下命令，启动Spark集群：

updateStateByKey可以在指定的批次间隔内返回之前的全部历史数据，包括新增的，改变的和没有改变的。由于updateStateByKey在使用的时候一定要做checkpoint，当数据量过大的时候，checkpoint会占据庞大的数据量，会影响性能，效率不高。如果不输入新的数据，会一直展示之前的结果查看checkpoint文件夹下，发现有很多类似于checkpoint-1542090065000的状态文件这些checkpoint文件都是小文件，对hdfs的压力很大，怎么解决呢？下文会讲。...

1,261

社区成员

1,169

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章