如何理解Spark是基于工作集的应用这句话?

TIFO 2017-11-02 03:06:57
同时如何理解MR是基于数据流这句话呢?
...全文
642 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
yann.bai 2019-11-02
  • 打赏
  • 举报
回复
我理解的是这样的,工作集是指进程已映射的物理内存部分(即这些内存块全在物理内存中,并且CPU可以直接访问),还有一部分不在工作集中的虚拟内存则可能在转换列表中(CPU不能通过虚地址访问,需要Windows映射之后才能访问),还有一部分则在磁盘上的页面文件里,这里的spark工作集也就是基于内存的;而MR是频繁与磁盘数据交互,也可以说是基于磁盘数据流的。希望继续有更好的答案。

1,258

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧