spark的缓存问题

mumumuyanyanyan 2017-10-27 09:41:29

问一下，spark中缓存persist或者cache，这两个操作属于transform还是action?
我现在在尝试，读取一个文件，然后将其缓存
val memory = sc.textFile("part-all0").map(x=>(x.split(",")[0],x)).partitionBy(new HashPartitioner(100)).persist()
但是在spark ui中executors中表示内存使用0
如果我在后面加一个action操作
memory.count()
executors中内存就有使用了。

所以我想问一下，这个persist是在什么时候才开始执行的。

...全文

476 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

砍柴大叔 2017-10-30

打赏
举报

回复

persist和cache都是懒执行的，只有遇到action类的算子才会触发执行

数据分析职业是一个多金的职业，数据分析职位是一个金饭碗的职位，前景美好，但是要全面掌握大数据分析技术，非常困难，大部分学员的痛点是不能快速找到入门要点，精准快速上手。本课程采用项目驱动的方式，以Spark3和Clickhouse技术为突破口，带领学员快速入门Spark3+Clickhouse数据分析，促使学员成为一名高效且优秀的大数据分析人才。学员通过本课程的学习，不仅可以掌握使用Python3进行Spark3数据分析，还会掌握利用Scala/java进行Spark数据分析，多语言并进，力求全面掌握；另外通过项目驱动，掌握Spark框架的精髓，教导Spark源码查看的技巧；会学到Spark性能优化的核心要点，成为企业急缺的数据分析人才；更会通过Clickhouse和Spark搭建OLAP引擎，使学员对大数据生态圈有一个更加全面的认识和能力的综合提升。真实的数据分析项目，学完即可拿来作为自己的项目经验，增加面试谈薪筹码。课程涉及内容：Ø Spark内核原理（RDD、DataFrame、Dataset、Structed Stream、SparkML、SparkSQL）Ø Spark离线数据分析(千万简历数据分析、雪花模型离线数仓构建)Ø Spark特征处理及模型预测Ø Spark实时数据分析(Structed Stream)原理及实战Ø Spark+Hive构建离线数据仓库（数仓概念ODS/DWD/DWS/ADS）Ø Clickhouse核心原理及实战Ø Clickhouse engine详解Ø Spark向Clickhouse导入简历数据，进行数据聚合分析Ø catboost训练房价预测机器学习模型Ø 基于Clickhouse构建机器学习模型利用SQL进行房价预测Ø Clickhouse集群监控，Nginx反向代理Grafana+Prometheus+Clickhouse+node_exporterØ Spark性能优化Ø Spark工程师面试宝典课程组件：集群监控：福利：本课程凡是消费满359的学员，一律送出价值109元的实体书籍.

文章目录RDD/Dataset缓存复用纯SQL结果缓存复用 RDD/Dataset缓存复用我们知道在使用RDD和Dataset API开发Spark应用程序的时候，如果要缓存某个RDD或Dataset来进行复用，减少重复计算提升计算效率的时候，我们可以在RDD或Dataset上调用persist()方法并传入缓存级别参数进行缓存。 val df: Dataset[Row] = ... df.persist(StorageLevel.MEMORY_AND_DISK) 纯SQL结果缓存复用但是当我们以纯S

Spark缓存使用缓存解决的问题减少对重复RDD的多次操作容错适用场景：在一个 RDD 需要重复多次利用, 并且还不是特别大的情况下使用, 例如迭代计算等场景. Spark缓存相关的API val conf = new SparkConf().setMaster("local[6]").setAppName("debug_string") val sc = new SparkContext(conf) val interimRDD = sc.textFile("dataset/acce

Spark缓存级别在spark中，如果一个rdd或者Dataset被多次复用，最好是对此做缓存操作，以避免程序多次进行重复的计算。Spark 的缓存具有容错机制，如果一个缓存的 RDD 的某个分区丢失了，Spark 将按照原来的计算过程，自动重新计算并进行缓存。缓存的使用： val dataset = spark.read.parquet(file) dataset.cache() 或者...

spark 几种缓存数据的方法1- 缓存表2-缓存结果查看3-缓存参数设置 1- 缓存表 1、cache table //缓存全表 sqlContext.sql("CACHE TABLE activity") //缓存过滤结果 sqlContext.sql("CACHE TABLE activity_cached as select * from activity where ...") CACHE TABLE是即时生效(eager)的，如果你想等到一个action操作再缓存数据可以使用CACHE LA

1,260

社区成员

1,169

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章