hadoop 测试文件输入端小，输出端文件放大10倍？

zccao_gong 2015-03-16 04:59:00

哪位同学有好的建议请指点指点？不胜感激！

...全文

180 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

tchqiq 2015-03-19

打赏
举报

回复

引用 2 楼 zccaogong 的回复:

输入map的文件是3M，reduce输出的时候文件大小变成30M。key不重复的情况下？

那要看你业务逻辑了，map端输入1份我最后控制输出10份又有什么不可以？如果你觉得有问题，那一定是你的代码写的有问题

zccao_gong 2015-03-18

打赏
举报

回复

输入map的文件是3M，reduce输出的时候文件大小变成30M。key不重复的情况下？

tchqiq 2015-03-17

打赏
举报

回复

没懂你的意思~~ 你这输入输出是mr吗？放hdfs上是要自动备份3份的~

Hadoop ：Join 操作一、实验目的基于 MapReduce 思想，编写两文件 Join 操作的程序。二、实验要求 2. 能够理解 MapReduce 编程思想，然后会编写 MapReduce 版本 Join 程序，并能执行该程序和分析执行过程。三、实验背景 3. 概述对于 RDBMS 中的 Join 操作大伙一定非常熟悉，写 SQL 的时候要十分注意细节，稍有差池就...

hadoop和hive经典题库

Hadoop是一个分布式系统基础架构，主要是为了解决海量数据的存储和海量数据的分析计算问题.核心架构:HDFS:分布式文件系统MapReduce:分布式计算系统YARN:分布式资源管理系统一、计算机的性能CPU、内存、磁盘健康、网络带宽二、磁盘IO1、数据倾斜2、Map和Reduce数量设计的不合理3、Map运行的时间过长、导致Reduce等待时间过久4、小文件过多5、大量的不可切分的超大的压缩文件6、Spill次数过多（导致大量落盘操作）。

1 单选题 1.1 下面哪个程序负责 HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 答案 C datanode 1.2 HDfS 中的 block 默认保存几份？ a)3 份 b)2 份 c)1 份 d)不确定答案 A 默认 3 分 1.3 下列哪个程序通常与 NameNode 在一...

打怪升级之小白的大数据之旅(四十三) Hadoop运行模式(集群搭建) 上次回顾上一章对单个Hadoop服务器环境搭建进行分享，本章对Hadoop集群的搭建以及运行进行分享，集群是Hadoop的核心，所以本章节很重要!很重要!很重要!OK，让我们开始 Hadoop的运行模式&集群的概述 Hadoop运行模式概述 Hadoop的运行模式分为本地模式、伪分布式模式和完全分布式模式三种，伪分布式没什么意思，我们也几乎用不到，我就不介绍了，我们的核心是完全分布模式，它就是我们Hadoop的集群集群的

Hadoop生态社区

20,848

社区成员

4,696

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章