mapreduce输入输出顺序问题
我刚刚接触hadoop,我知道在shuffle阶段,数据都是随机发给reduce,比如,我有个文本文件用wordcount来计算。
test.txt的内容
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
我想利用reduce将里面每个数据加倍,然后输出
得到结果是:
2
20
22
24
26
28
30
32
34
36
38
40
4
6
8
10
12
14
16
18
是这样一个局部有序的序列
我想得到一个和输入顺序相同的输出序列,应该如何完成?
是否要重新排序,那这样不是做了很多重复的工作。
是否使用partitioner 或是 采样器之类的东西,我对这些都不了解。