为什么hadoop的mapreduce链中的reducer最多只能有一个？

张小琦 2015-04-26 04:19:36

为什么hadoop的mapreduce链中的reducer最多只能有一个

...全文

102 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

将代码存储在/usr/local/hadoop/reducer.py 中，这个脚本的作用是从mapper.py 的STDIN中读取结果，然后计算每个单词出现次数的总和，并输出结果到STDOUT。同样，要注意脚本权限：chmod +x reducer.py测试你的代码（cat data | map | sort | reduce）我建议你在运行MapReduce job测试前尝试手工测试你的mapper.py 和 reducer.py脚本，以免得不到任何返回结果。

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

分布式计算概念分布式计算是一种计算方法，和集中式计算是相对的。随着计算技术的发展，有些应用需要非常巨大的计算能力才能完成，如果采用集中式计算，需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分，分配给多台计算机进行处理。这样可以节约整体计算时间，大大提高计算效率。MapReduce介绍Hadoop MapReduce是一个分布式计算框架，用于轻松编写分布式应用程序，这些应用程序以可靠，容错的方式并行处理大型硬件集群（数千个节点）上的大量数据（多TB数据集）。

尽管Hadoop框架本身是使用Java创建的，但MapReduce作业可以用许多不同的语言编写。在本文中，我将展示如何像其他Java项目一样，基于Maven项目在Java中创建MapReduce作业。准备示例输入让我们从一个虚构的商业案例开始。在这种情况下，我们需要一个CSV文件，其中包含字典中的英语单词，并添加了其他语言的所有翻译，并以'|'分隔符号。我已经根据这篇文章...

51,402

社区成员

85,918

社区内容

发帖

与我相关

我的任务

javaspring bootspring cloud 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章