实现一个算法，需要先后三个MapReduce过程，要如何处理？

阿呆的脑残粉 2016-06-14 07:32:26

MR1的输出是MR2的输入，MR2的输入是MR3的输出。所以是要分成三个文件分别实现三个MapReduce，还是能在一个文件里先后完成三个MapReduce过程？如果想要在一个文件里实现三个过程，那我要怎么处理？拜托各位了。

...全文

166 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

Q-WHai 2016-06-16

打赏
举报

回复

用一个文件作为 mr1 的输入，mr1 与 mr2，mr2 与 mr3 之间是中间输出啊。这种例子，网上一大片吧

1、mapreduce原理 1.1、序列化和反序列化（1）序列化：将内存的对象转换成字节序列，便于存储（2）反序列化：将收到的字节序列或硬盘的持久化数据，转换成内存。 1.2、inputformat中默认的是（textinputformat） 1.3、Inputsplit的含义 –inputsplit只记录了分片的元数据信息，比如起始位置、长度及所在节点列表等。（1）找到所需数据文件存储目录；（2）遍历处理目录下的每一个文件（3）遍历第一个文件ss.txt ①遍历文件大小； ②计算切片大小，默认情

多个MR作业，先后依次执行来计算得出最终结果。这类作业类似于DAG的任务，各个作业之间有依赖关系，比如说，这一个作业的输入，依赖上一个作业的输出等等。一般实际的业务场景中，可能使用定时调度工具进行调度，但本示例仅仅说明mapreduce自身也可以做到。JobControl类：工作流job控制器，一次可以提交、管理多个job。JobControl类实现了线程Runnable接口。需要实例化一个线程来让它启动。ControlledJob类：可以将普通作业包装成受控作业。并且支持设置依赖关系。

1 概述 1.1 定义 Mapreduce 是一个分布式运算程序的编程框架，是用户开发“基于 hadoop 的数据分析应用”的核心框架。 Mapreduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 hadoop 集群上。 1.2 优缺点 1.2.1 优点 MapReduce 易于编程。它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的 PC 机器上运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。

MapReduce的Shuffle和Spark的Shuffle过程对比MapReduce MapReduce MapReduce计算模型分为map和reduce两个重要阶段，map是映射，负责数据的过滤分发。reduce是规约，负责数据的计算归并，map将数据传递给reduce，reduce需要通过shuffle来读取数据。map输出到reduce的输入广义的称之为Shuffle。Shuffle横...

第1章 MapReduce概论 1.1 MapReduce定义 MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上 1.2 MapReduce优缺点 1.2.1 优点 A．MapReduce易于编程 B．良好的扩...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章