社区
Spark
帖子详情
如何计算spark中某个文件的内存占用情况?
mumumuyanyanyan
2017-10-27 09:43:47
通过spark读取文件,如何计算或者查看该文件内存占用情况?
比如
val memory = sc.textFile("part-all0")
我想知道这个文件占用多大内存
...全文
789
1
打赏
收藏
如何计算spark中某个文件的内存占用情况?
通过spark读取文件,如何计算或者查看该文件内存占用情况? 比如 val memory = sc.textFile("part-all0") 我想知道这个文件占用多大内存
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
上海菁数信息——实时数字智能
2017-10-30
打赏
举报
回复
1. 这个语句不会直接占用内存,在后面时才会加载进来,是惰性的 2. 集群环境中,会分散到多个节点上分摊使用内存,追踪的话需要看你时spark on yarn还是standalone不同的模式有不同的方式
Spark
内存
计算
Apache
Spark
概述
Spark
是一个快如闪电的统一分析引擎(
计算
框架)用于大规模数据集的处理。
Spark
在做数据的批处理
计算
,
计算
性能大约是Hadoop MapReduce的10~100倍,因为
Spark
使用比较先进的基于DAG任务调度,可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交给集群
计算
节点处理。 MapReduce VS
Spark
MapReduce作为第一代大数据处理框架,在设计初期只是为了满足基于海量数据级的海量数据
计算
的迫切需求。自2006年剥离自Nutch(Java搜
大数据学习之路 ---
Spark
(
内存
计算
框架)
Spark
是基于
内存
计算
的大数据并行
计算
框架。
spark
基于
内存
计算
,提高了在大数据环境下数据处理的的实时性,同时保证了高容错性和高可伸缩性。 ---<<
Spark
大数据处理技术,应用与性能优化>...
Spark
核心知识,参数配置,
内存
优化,常见问题大全
Spark
基础篇1、
Spark
有哪两种算子?2、
Spark
有哪些聚合类的算子,我们应该尽量避免什么类型的算子?3、如何从Kafka
中
获取数据?4、RDD创建有哪几种方式?5、
Spark
并行度怎么设置比较合适?6、
Spark
如何处理不能被序列化的对象?7、collect功能是什么,其底层是怎么实现的?8、为什么
Spark
Application在没有获得足够的资源,job就开始执行了,可能会导致什么什么问题发生?9、map与flatMap的区别?10、
Spark
on Mesos
中
,什么是的粗粒度分配,什么是
Spark
内存
管理机制
基于
Spark
3.1.3
3、
Spark
2x 基于
内存
的
计算
引擎
Spark
2x 基于
内存
的
计算
引擎 一、
Spark
概述
Spark
是一种基于
内存
进行
计算
的分布式批处理引擎,他的主要工作是执行以下几种
计算
: (1) 数据处理,可以进行快速的数据
计算
工作,具备容错性和可拓展性。 (2) 迭代
计算
,
Spark
支持迭代
计算
,可以对多步数据逻辑处理进行
计算
工作。(3) 数据挖掘,在海量数据基础上进行挖掘分析,可以支持多种数据挖掘和机器学习算法。 对比于 ...
Spark
1,261
社区成员
1,169
社区内容
发帖
与我相关
我的任务
Spark
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
复制链接
扫一扫
分享
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章