RDD 的缓存 Fraction cached 大于100%的问题，哪位大神遇到过

DREAMTALE_3 2016-08-09 06:00:27

见spark issues
https://issues.apache.org/jira/browse/SPARK-4049

但是到现在社区还没有解决，问题是当一个被cache的RDD被重复使用很多次时，Fraction cached会大于100%，正常情况下是不可能超过100%的，最后导致的结果是内存被不停的消耗，任务越来越慢，不知哪位遇到过这个问题，有没有解决或规避的方法？

...全文

576 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

本课重点讲解Spark 的灵魂RDD 和DataSet。讲解RDD 的定义、五大特性剖析及DataSet的定义和内部机制剖析；对RDD 弹性特性七个方面进行解析；讲解RDD 依赖关系，包括窄依赖、宽依赖；解析Spark 中DAG 逻辑视图；对RDD 内部的计算机制及计算过程进行深度解析；讲解Spark RDD 容错原理及其四大核心要点解析对Spark RDD 中Runtime 流程进行解析；通过一个WordCount 实例，解析Spark RDD内部机制；基于DataSet的代码，深入分析DataSet一步步转化成为RDD 的过程。

今天发现了RDD缓存时的一个小坑，百度没有多少关于这个坑的介绍，也许是太简单了。不过我还是写下来，免得自己以后再被陷进去。在Spark-shell中运行这样的代码 val rdd=sc.textFile("/zhangyan/result...

1、spark的cache只能将数据缓存在内存中，当缓存数据过大时，会只缓存部分数据，没缓存的数据还是会重复之前的操作从之前的RDD中计算获得。 2、persist可以选择存储级别，在缓存级别为MEMORY_AND_DISK和DISK_ONLY时...

标题1.RDD缓存方式2.Spark RDD Cache3.cache和persist的区别 Spark速度非常快的原因之一，就是在不同操作中可以在内存中持久化或者缓存数据集。当持久化某个RDD后，每一个节点都将把计算分区结果保存在内存中，对此...

Spark RDD的缓存Spark速度非常快的原因之一，就是在不同操作中可以在内存中持久化或者缓存数据集。当持久化某个RDD后，每一个节点都将把计算分区结果保存在内存中，对此RDD或衍生出的RDD进行的其他动作中重用。这...

1,261

社区成员

1,169

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章