hadoop streaming遇到一个很奇怪的问题

luoryan 2014-10-19 02:59:58

我用streaming去计算数据的条数
hadoop fs -rm -r -skipTrash /tmp/output;
hadoop jar /home/hadoop/hadoop-streaming.jar \
-input /data/000000_0 \
-output /tmp/output \
-mapper "wc -l"

得到的结果是两个数字，加起来才等于实际的条数，我的input文件只有一个，为什么好像是会分开两个去计算结果，是不是与这个文件的格式有什么关系？？？

...全文

178 2 打赏收藏转发到动态举报

写回复

用AI写文章

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

luoryan 2014-10-20

打赏
举报

引用 1 楼 wulinshishen 的回复:

不是，是因为map tasks 等于 2，你只要指定设置一下map tasks num 为 1 就可以 hadoop jar share/hadoop/tools/lib/hadoop-streaming-2.4.1.jar -D mapred.map.tasks=1 -input /user/hadoop/data/temp/word/input -output /user/hadoop/data/temp/word/output5 -mapper "wc -l"

这个有用，谢谢

人生偌只如初见 2014-10-19

打赏
举报

不是，是因为map tasks 等于 2，你只要指定设置一下map tasks num 为 1 就可以 hadoop jar share/hadoop/tools/lib/hadoop-streaming-2.4.1.jar -D mapred.map.tasks=1 -input /user/hadoop/data/temp/word/input -output /user/hadoop/data/temp/word/output5 -mapper "wc -l"

仔细参考了 CSDN 中的心血博客（http://blog.csdn.net/licongcong_0224/article/details/12972889）之后，...这次的问题乍看起来很奇怪，在本机完成配置进行“伪分布式”启动的时候，首先，我们需要对namenode进行fo

根据IDC 监测，人类产生的数据量正在呈指数级增长，大约每两年翻一番，这个速度会继续保持下去，数据结构日趋复杂，大量新数据源的出现则导致非结构化、半结构化数据爆发式的增长。2020 年，整个世界的数据总量达到...

与 Hadoop 对比，如何看待 Spark 技术？修改最近公司邀请来王家林老师来做培训，其浮夸的授课方式略接受不了。其强烈推崇Spark技术，宣称Spark是大数据的未来，同时宣布了Hadoop的死刑。那么与Hadoop相比，...

一、Hadoop简介 1.什么是Hadoop Apache™ Hadoop® project 生产出的用于高可靠、可扩展、分布式计算的开源软件，它允许通过集群的方式使用简单的编程模型分布式处理大数据，它可以从单一的服务器扩展到...

最好让集群为作业决定分区数：集群的reducer任务槽越多，作业完成就快，这是默认的HashPartitioner表现如此出色的原因，因为它处理的分区数不限，并且保证每个分区有一个很好的键组合使分区更均匀。如果要用每个...