MapReduce对相同key值的value进行聚集

aomika 2013-06-30 03:13:48

<k1,v1>,<k1,v2> ==> <k1,<v1,v2>>
MapReduce中对相同key值的value进行聚集的过程发生在 Map 端还是 Reduce 端呢
我想找到这个操作的代码在哪

另外这个操作和 Combiner 有什么关系吗

...全文

1050 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

xuanxufeng 2013-08-10

打赏
举报

回复 1

不多说，给你看段代码： job.setMapperClass(TestMapper.class); job.setCombinerClass(TestReducer.class); job.setReducerClass(TestReducer.class); 这里combiner和Reducer用了相同的代码，所以说在 combiner阶段和Reduce阶段都进行了合并。

hsb1132 2013-07-29

打赏
举报

回复

map之后，Combiner 之后，reduce之后

SoftLy 2013-07-16

打赏
举报

回复

Map结束后会有一个shuffle的过程，就是对key处理一次如果setCombiner,那么在map结束后会对局部结果做一次处理

撸大湿 2013-07-03

打赏
举报

回复

Reduce前会做一次如果有Combiner Combiner 前也会做一次

java大数据培训学校全套教材系列课程由1000集视频构成，基本就是1）时下流行的java培训学校主流内部教材，2）和市面上培训学校的通行的课程体系几乎一样。所以这套课程都能自己学下来，等于上了培训学校一次，完全可以找个java工程师的工作了。通过学习MapReduce程序，如何输入文件是两个文件，Partitioner的用法，Combiner的用法，自定义对象，排序sort，topN问题，全局变量，剖析源码单步调试详解MapReduce分组group遍历，reduce当中的cleanup的用法，自定义输出：多文件输出MultipleOutputs，DBOutputFormat把MapReduce结果输出到mysql中，MapReduce实现join算法，map端做join，寻找用户间的共同好友等，围绕着Mapreduce知识点的相关14个问题，学过后可以基本胜任MapReduce编程工作。课程特色：专业细致，偏案例，理论强。课程软件使用：必须下载 2018 eclipse 4.7 oxygen版本重要声明：如果感觉噪音大，可以选择不用耳机，加音箱或用电脑原声

看这篇文章请出去跑两圈，然后泡一壶茶，边喝茶，边看，看完你就对hadoop 与MapReduce的整体有所了解了。【前言】 Hadoop是一个实现了Google云计算系统的开源系统，包括并行计算模型Map/Reduce、分布式文件系统HDFS，以及分布式数据库Hbase，同时Hadoop的相关项目也很丰富，包括ZooKeeper，Pig，Chukwa，Hive，Hbase，Mahout，flume等。本文就hadoop的并行分布式计算模型MapReduce做一个简单的入门介绍。【什么是Map/

咳咳，终于要写mapreduce了，算是填上了以前挖的坑，虽然时间有点晚。。。。。。 mapreduce去空去重并格式化输出数据前提：解析json的库：我使用的是阿里的fastjson 思路: 数据去重：map的输出<key,value>经过shuffle过程聚集成<key,value-list>后交给reduce，无论这个数据出现多少次，只要在最终结果中输出一次就可以了...

分区、键排序和合并是Shuffle过程的三个主要步骤，通过这些步骤，Shuffle可以将Map任务输出的数据重新组织和排序，以便后续Reducer任务进行合并和计算。其中，Shuffle是MapReduce中的一个关键步骤，用于重新分发和排序Map阶段输出的数据，以便将相同key的数据传递给Reducer阶段进行合并和计算。MapReduce Shuffle的主要目的是将Map任务的输出结果根据key进行重新分区，将具有相同key值的数据聚集在一起，便于下一阶段的合并和计算。根据首字母对数据进行分区。

我们知道MapReduce计算模型主要由三个阶段构成：Map、shuffle、Reduce。Map是映射，负责数据的过滤分法，将原始数据转化为键值对；Reduce是合并，将具有相同key值的value进行处理后再输出新的键值对作为最终结果。为了让Reduce可以并行处理Map的结果，必须对Map的输出进行一定的排序与分割，然后再交给对应的Reduce，而这个将Map输出进行进一步整理并交给Reduc

Hadoop生态社区

20,809

社区成员

4,691

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章