社区
Spark
帖子详情
sparkstreaming mapWithState状态保存问题
book_reinforce
2017-03-22 10:22:21
我在spark流处理中调用mapWithState保留KEY的最新状态,现在的问题是当我把流重启后原先保留的状态都不存在了,有什么办法能在重启流后还能保留以前的状态吗?
...全文
432
5
打赏
收藏
sparkstreaming mapWithState状态保存问题
我在spark流处理中调用mapWithState保留KEY的最新状态,现在的问题是当我把流重启后原先保留的状态都不存在了,有什么办法能在重启流后还能保留以前的状态吗?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
5 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
尘世如戏
2020-11-27
打赏
举报
回复
楼主最后解决了吗
程序员Aike
2018-11-17
打赏
举报
回复
为什么 后面会自动加上 其他链接 无语
程序员Aike
2018-11-17
打赏
举报
回复
https://blog.csdn.net/zangdaiyang1991/article/details/84099722
程序员Aike
2018-11-17
打赏
举报
回复
https://blog.csdn.net/zangdaiyang1991/article/details/84099722
pucheung
2018-09-16
打赏
举报
回复
使用checkpoint 方式,保存状态
第一章:
Spark
Streaming
实时计算
1.
Spark
Streaming
:大数据实时计算介绍2.
Spark
Streaming
:DStream基本工作原理3.
Spark
Streaming
:
Streaming
Context详解技能点4.
Spark
Streaming
:输入DStream和Receiver详解5.
Spark
Streaming
:DStream的transformation操作概览
spark
-
streaming
状态
流之
map
With
State
背景刚接触
spark
-
streaming
,然后写了一个WordCount程序,对于不停流进来的数据,需要累加单词出现的次数,这时就需要把前一段时间的结果持久化,而不是数据计算过后就抛弃,在网上搜索到
spark
-
streaming
可以通过update
State
ByKey和
map
With
State
来实现这种有
状态
的流管理,后者虽然在
spark
1.6.x还是一个实验性的实现,不过由于它的实现思想以及性能都...
Spark
Streaming
之
map
With
State
与update
State
ByKey方法相比,
Spark
Streaming
保存
计算
状态
掌握 DStream数据累加函数update
State
ByKey。 掌握 DStream数据累加函数
map
With
State
。1、每5秒钟计算一次每个单词出现的累加数量。(使用Socket数据源)在DStream中支持跨批次数据执行计算时保持任意
状态
。在
Spark
第一代流处理(
Spark
Streaming
)中,这需要手工实现。硬件:x86_64 ubuntu 16.04服务器 软件:JDK 1.8,
Spark
-2.3.2,Hadoop-2.7.31、在终端窗口下,输入如下命令,启动
Spark
集群:
Spark
Streaming
状态
管理函数update
State
ByKey和
map
With
State
update
State
ByKey可以在指定的批次间隔内返回之前的全部历史数据,包括新增的,改变的和没有改变的。由于update
State
ByKey在使用的时候一定要做checkpoint,当数据量过大的时候,checkpoint会占据庞大的数据量,会影响性能,效率不高。如果不输入新的数据,会一直展示之前的结果查看checkpoint文件夹下,发现有很多类似于checkpoint-1542090065000的
状态
文件这些checkpoint文件都是小文件,对hdfs的压力很大,怎么解决呢?下文会讲。...
Spark
1,261
社区成员
1,169
社区内容
发帖
与我相关
我的任务
Spark
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
复制链接
扫一扫
分享
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章