如何理解Spark是基于工作集的应用这句话？

TIFO 2017-11-02 03:06:57

同时如何理解MR是基于数据流这句话呢？

...全文

684 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

yann.bai 2019-11-02

打赏
举报

回复

我理解的是这样的，工作集是指进程已映射的物理内存部分（即这些内存块全在物理内存中，并且CPU可以直接访问），还有一部分不在工作集中的虚拟内存则可能在转换列表中（CPU不能通过虚地址访问，需要Windows映射之后才能访问），还有一部分则在磁盘上的页面文件里，这里的spark工作集也就是基于内存的；而MR是频繁与磁盘数据交互，也可以说是基于磁盘数据流的。希望继续有更好的答案。

Spark SQL 工作流程源码解析（一）总览（基于 Spark 3.3.0） Spark SQL 工作流程源码解析（二）parsing 阶段（基于 Spark 3.3.0） Spark SQL 工作流程源码解析（三）analysis 阶段（基于 Spark 3.3.0） Spark SQL ...

理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文中阐述的原理基于 Spark 2.X 版本。在执行 Spark 的应用程序时，Spark 集群会启动 Driver 和 Executor 两种 JVM 进程，前者为...

Spark 第一章是什么一介绍简介特点二 Spark与MapReduce的区别三 Spark运行模式四 Spark CoreSpark RDDRDD LineageSpark任务执行原理Spark代码流程Spark 中的算子Transformations转换算子Action行动算子控制算子 ...

在前面的课时中，我们学习了 Spark 的用法和原理，今天这个课时主要介绍 Spark 两个比较重要的优化提升项目，从这两个项目中可以看出 Spark 的优化思路。这节课与前面的课时有所不同，主要介绍一些比较细的优化思路...

**比如，字节跳动基于Spark构建的数据仓库去服务几乎所有的产品线，包括抖音、今日头条、西瓜视频、火山视频等。再比如，百度基于Spark推出BigSQL，为海量用户提供次秒级的即席查询。可以预见的是，

1,269

社区成员

1,169

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章