社区
Hadoop生态社区
帖子详情
hadoop 测试文件输入端小,输出端文件放大10倍?
zccao_gong
2015-03-16 04:59:00
哪位同学有好的建议请指点指点?不胜感激!
...全文
148
3
打赏
收藏
hadoop 测试文件输入端小,输出端文件放大10倍?
哪位同学有好的建议请指点指点?不胜感激!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
tchqiq
2015-03-19
打赏
举报
回复
引用 2 楼 zccaogong 的回复:
输入map的文件是3M,reduce输出的时候文件大小变成30M。key不重复的情况下?
那要看你业务逻辑了,map端输入1份我最后控制输出10份又有什么不可以? 如果你觉得有问题,那一定是你的代码写的有问题
zccao_gong
2015-03-18
打赏
举报
回复
输入map的文件是3M,reduce输出的时候文件大小变成30M。key不重复的情况下?
tchqiq
2015-03-17
打赏
举报
回复
没懂你的意思~~ 你这输入输出是mr吗? 放hdfs上是要自动备份3份的~
Hadoop
:Join 操作
Hadoop
:Join 操作 一、 实验目的 基于 MapReduce 思想,编写两
文件
Join 操作的程序。 二、 实验要求 2. 能够理解 MapReduce 编程思想,然后会编写 MapReduce 版本 Join 程序,并能执 行该程序和分析执行过程。 ...
hadoop
面试题
hadoop
和hive经典题库
打怪升级之小白的大数据之旅(四十三)<
Hadoop
运行模式(集群搭建)>
打怪升级之小白的大数据之旅(四十三)
Hadoop
运行模式(集群搭建) 上次回顾 上一章对单个
Hadoop
服务器环境搭建进行分享,本章对
Hadoop
集群的搭建以及运行进行分享,集群是
Hadoop
的核心,所以本章节很重要!很重要!很...
Hadoop
+Zookeeper+Hive+Flume+Kafka+Hbase
分布式计算系统YARN:分布式资源管理系统一、计算机的性能CPU、内存、磁盘健康、网络带宽二、磁盘IO1、数据倾斜2、Map和Reduce数量设计的不合理3、Map运行的时间过长、导致Reduce等待时间过久4、小
文件
过多...
hadoop
、hbase、hive、spark分布式系统架构原理
机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,
hadoop
用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都是基于相同的...
Hadoop生态社区
20,809
社区成员
4,691
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章