如何理解Spark是基于工作集的应用这句话？

TIFO 2017-11-02 03:06:57

同时如何理解MR是基于数据流这句话呢？

...全文

642 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

yann.bai 2019-11-02

打赏
举报

回复

我理解的是这样的，工作集是指进程已映射的物理内存部分（即这些内存块全在物理内存中，并且CPU可以直接访问），还有一部分不在工作集中的虚拟内存则可能在转换列表中（CPU不能通过虚地址访问，需要Windows映射之后才能访问），还有一部分则在磁盘上的页面文件里，这里的spark工作集也就是基于内存的；而MR是频繁与磁盘数据交互，也可以说是基于磁盘数据流的。希望继续有更好的答案。

Spark SQL 工作流程源码解析（一）总览（基于 Spark 3.3.0） Spark SQL 工作流程源码解析（二）parsing 阶段（基于 Spark 3.3.0） Spark SQL 工作流程源码解析（三）analysis 阶段（基于 Spark 3.3.0） Spark SQL ...

在前面的课时中，我们学习了 Spark 的用法和原理，今天这个课时主要介绍 Spark 两个比较重要的优化提升项目，从这两个项目中可以看出 Spark 的优化思路。这节课与前面的课时有所不同，主要介绍一些比较细的优化思路...

Spark 第一章是什么一介绍简介特点二 Spark与MapReduce的区别三 Spark运行模式四 Spark CoreSpark RDDRDD LineageSpark任务执行原理Spark代码流程Spark 中的算子Transformations转换算子Action行动算子控制算子 ...

大数据-spark简介

1.以下关于Spark计算框架，说法错误的是：（ B ） A.Spark支持内存计算 B.Spark框架是使用Java编写的 C.Spark提供了完整而强大的技术栈，包括SQL查询、流式计算、机器学习和图算法组件 D.Spark可运行于独立的...

1,258

社区成员

1,168

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章