hadoop streaming遇到一个很奇怪的问题

luoryan 2014-10-19 02:59:58
我用streaming去计算数据的条数
hadoop fs -rm -r -skipTrash /tmp/output;
hadoop jar /home/hadoop/hadoop-streaming.jar \
-input /data/000000_0 \
-output /tmp/output \
-mapper "wc -l"

得到的结果是两个数字,加起来才等于实际的条数,我的input文件只有一个,为什么好像是会分开两个去计算结果,是不是与这个文件的格式有什么关系???
...全文
178 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
luoryan 2014-10-20
  • 打赏
  • 举报
回复
引用 1 楼 wulinshishen 的回复:
不是,是因为map tasks 等于 2, 你只要指定设置一下map tasks num 为 1 就可以 hadoop jar share/hadoop/tools/lib/hadoop-streaming-2.4.1.jar -D mapred.map.tasks=1 -input /user/hadoop/data/temp/word/input -output /user/hadoop/data/temp/word/output5 -mapper "wc -l"
这个有用,谢谢
  • 打赏
  • 举报
回复
不是,是因为map tasks 等于 2, 你只要指定设置一下map tasks num 为 1 就可以 hadoop jar share/hadoop/tools/lib/hadoop-streaming-2.4.1.jar -D mapred.map.tasks=1 -input /user/hadoop/data/temp/word/input -output /user/hadoop/data/temp/word/output5 -mapper "wc -l"

20,811

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧