mapreduce计算框架的一点疑问

zycxnanwang
博客专家认证
2019-04-20 04:16:20
mapreduce计算框架中,有map任务和reducer任务。
map任务,主要是将原始数据转为 <key, value>形式
中间会有combine过程 将<key, value>转为 <key, list>
因为每个reducer都会收到相同的key值,我这里有两个问题,

1. 相同key值得数据会被切分,分发给不同的reducer吗?, 如果这样,最后的结果如何产生

2. 如果不切分,一个reduer能处理那么大得数据量吗? (相同key的数据可能是海量的)
...全文
264 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
奋斗的瘦胖子 2019-05-08
  • 打赏
  • 举报
回复
1.当前partition或者叫executor可以把当前的自己负责的区域内的数据中,相同key的数据,先reduce,然后,再一起,发送给对应的那个reducer,然后这个reducer进行合并输出结果 2.发送给reducer的过程,就是shuffe了吧
Keifei 2019-04-28
  • 打赏
  • 举报
回复
引用 5 楼 zycxnanwang 的回复:
[quote=引用 4 楼 have_power 的回复:][quote=引用 2 楼 张伯毅 的回复:] 问题 1. 相同的 key 中的 list 不会被切分. 你直接处理拿到的 list 集合就好, list 集合输出的结果就是针对这个 key 的最终输出. 问题 2. 针对 key 相同, 存在海量 ? 这个海量需要定义, 如果很大几十G的话, 这涉及到一个技术问题: [数据倾斜] 我建议先理解一下 mapreduce的 shuffle 过程, 然后就知道怎么处理了.
个人觉得这和shuffle基本没关系...[/quote]能讲一下你详细的看法吗?[/quote]
引用 5 楼 zycxnanwang 的回复:
[quote=引用 4 楼 have_power 的回复:][quote=引用 2 楼 张伯毅 的回复:] 问题 1. 相同的 key 中的 list 不会被切分. 你直接处理拿到的 list 集合就好, list 集合输出的结果就是针对这个 key 的最终输出. 问题 2. 针对 key 相同, 存在海量 ? 这个海量需要定义, 如果很大几十G的话, 这涉及到一个技术问题: [数据倾斜] 我建议先理解一下 mapreduce的 shuffle 过程, 然后就知道怎么处理了.
个人觉得这和shuffle基本没关系...[/quote]能讲一下你详细的看法吗?[/quote]可以说,任何用mapreduce计算框架的数据处理,都得考虑混洗,因为混洗的排序和聚合对效率影响是决定性的,但是楼主的问题是什么?<key,value>你在混洗过程可以改变吗?map函数执行完的结果你在混洗过程如何改变?你不想办法搞map,你想办法让他怎么进reduce?
Keifei 2019-04-26
  • 打赏
  • 举报
回复
引用 2 楼 张伯毅 的回复:
问题 1. 相同的 key 中的 list 不会被切分. 你直接处理拿到的 list 集合就好, list 集合输出的结果就是针对这个 key 的最终输出. 问题 2. 针对 key 相同, 存在海量 ? 这个海量需要定义, 如果很大几十G的话, 这涉及到一个技术问题: [数据倾斜] 我建议先理解一下 mapreduce的 shuffle 过程, 然后就知道怎么处理了.
个人觉得这和shuffle基本没关系...
zycxnanwang 2019-04-26
  • 打赏
  • 举报
回复
引用 4 楼 have_power 的回复:
[quote=引用 2 楼 张伯毅 的回复:] 问题 1. 相同的 key 中的 list 不会被切分. 你直接处理拿到的 list 集合就好, list 集合输出的结果就是针对这个 key 的最终输出. 问题 2. 针对 key 相同, 存在海量 ? 这个海量需要定义, 如果很大几十G的话, 这涉及到一个技术问题: [数据倾斜] 我建议先理解一下 mapreduce的 shuffle 过程, 然后就知道怎么处理了.
个人觉得这和shuffle基本没关系...[/quote]能讲一下你详细的看法吗?
zycxnanwang 2019-04-24
  • 打赏
  • 举报
回复
引用 2 楼 张伯毅 的回复:
问题 1. 相同的 key 中的 list 不会被切分. 你直接处理拿到的 list 集合就好, list 集合输出的结果就是针对这个 key 的最终输出. 问题 2. 针对 key 相同, 存在海量 ? 这个海量需要定义, 如果很大几十G的话, 这涉及到一个技术问题: [数据倾斜] 我建议先理解一下 mapreduce的 shuffle 过程, 然后就知道怎么处理了.
好像理解了, 如果数据是海量的,可以考虑在partition过程中对其进行分区,使reducer负载能均衡
张伯毅 2019-04-24
  • 打赏
  • 举报
回复
问题 1. 相同的 key 中的 list 不会被切分. 你直接处理拿到的 list 集合就好, list 集合输出的结果就是针对这个 key 的最终输出. 问题 2. 针对 key 相同, 存在海量 ? 这个海量需要定义, 如果很大几十G的话, 这涉及到一个技术问题: [数据倾斜] 我建议先理解一下 mapreduce的 shuffle 过程, 然后就知道怎么处理了.
掌握分布式mapreduce与raft算法与分布式数据库MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念Map(映射)和Reduce(归约),是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:1)MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。2)MapReduce是一个并行计算与运行软件框架(Software Framework)。它提供了一个庞大但设计精良的并行计算软件框架,能自动完成计算任务的并行化处理,自动划分计算数据和计算任务,在集群节点上自动分配和执行任务以及收集计算结果,将数据分布存储、数据通信、容错处理等并行计算涉及到的很多系统底层的复杂细节交由系统负责处理,大大减少了软件开发人员的负担。3)MapReduce是一个并行程序设计模型与方法(Programming Model & Methodology)。它借助于函数式程序设计语言Lisp的设计思想,提供了一种简便的并行程序设计方法,用Map和Reduce两个函数编程实现基本的并行计算任务,提供了抽象的操作和并行编程接口,以简单方便地完成大规模数据的编程和计算处理Raft 是一种为了管理复制日志的一致性算法。它提供了和 Paxos 算法相同的功能和性能,但是它的算法结构和 Paxos 不同,使得 Raft 算法更加容易理解并且更容易构建实际的系统。为了提升可理解性,Raft 将一致性算法分解成了几个关键模块,例如leader人选举、日志复制和安全性。同时它通过实施一个更强的一致性来减少需要考虑的状态的数量。从一个用户研究的结果可以证明,对于学生而言,Raft 算法比 Paxos 算法更加容易学习。Raft 算法还包括一个新的机制来允许集群成员的动态改变,它利用重叠的大多数来保证安全性。 一致性算法允许一组机器像一个整体一样工作,即使其中一些机器出现故障也能够继续工作下去。正因为如此,一致性算法在构建可信赖的大规模软件系统中扮演着重要的角色。在过去的 10 年里,Paxos 算法统治着一致性算法这一领域:绝大多数的实现都是基于 Paxos 或者受其影响。同时 Paxos 也成为了教学领域里讲解一致性问题时的示例。 但是不幸的是,尽管有很多工作都在尝试降低它的复杂性,但是 Paxos 算法依然十分难以理解。并且,Paxos 自身的算法结构需要进行大幅的修改才能够应用到实际的系统中。这些都导致了工业界和学术界都对 Paxos 算法感到十分头疼。 和 Paxos 算法进行过努力之后,我们开始寻找一种新的一致性算法,可以为构建实际的系统和教学提供更好的基础。我们的做法是不寻常的,我们的首要目标是可理解性:我们是否可以在实际系统中定义一个一致性算法,并且能够比 Paxos 算法以一种更加容易的方式来学习。此外,我们希望该算法方便系统构建者的直觉的发展。不仅一个算法能够工作很重要,而且能够显而易见的知道为什么能工作也很重要。 Raft 一致性算法就是这些工作的结果。在设计 Raft 算法的时候,我们使用一些特别的技巧来提升它的可理解性,包括算法分解(Raft 主要被分成了leader人选举,日志复制和安全三个模块)和减少状态机的状态(相对于 Paxos,Raft 减少了非确定性和服务器互相处于非一致性的方式)。一份针对两所大学 43 个学生的研究表明 Raft 明显比 Paxos 算法更加容易理解。在这些学生同时学习了这两种算法之后,和 Paxos 比起来,其中 33 个学生能够回答有关于 Raft 的问题。 Raft 算法在许多方面和现有的一致性算法都很相似(主要是 Oki 和 Liskov 的 Viewstamped Replication),但是它也有一些独特的特性: 强leader:和其他一致性算法相比,Raft 使用一种更强的leader能力形式。比如,日志条目只从leader发送给其他的服务器。这种方式简化了对复制日志的管理并且使得 Raft 算法更加易于理解。leader选举:Raft 算法使用一个随机计时器来选举leader。这种方式只是在任何一致性算法都必须实现的心跳机制上增加了一点机制。在解决冲突的时候会更加简单快捷。成员关系调整:Raft 使用一种共同一致的方法来处理集群成员变换的问

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧