Hadoop中，设置InputFormat的isSplitable()返回false,那么map的数量只有一个么？

jomedy 2013-06-26 09:27:06

splits的数量应该为1，那根据网上说的map的数量和splits的数量一样，那么map的数量也为1 ？
但是我现在的需求是要有很多map运行，怎么弄？重写getSplits()么？，除了这个还有什么么？，求解答，谢谢!

...全文

334 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

撸大湿 2013-07-03

打赏
举报

回复

默认是按Block的数量来split的如果要自定义，重写inputformat

jomedy 2013-06-28

打赏
举报

回复

求解答啊!!!

Hadoop 可以处理许多不同类型的数据格式，...Hadoop InputFormat 是 Map-Reduce 的第一个组件，它负责创建输入拆分并将它们划分为记录。最初，MapReduce 任务的数据存储在输入文件中，而输入文件通常驻留在HDFS 中。尽.

将多个小文件合并成一个SequenceFile文件（SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式），SequenceFile里面存储着多个文件，存储的形式为文件路径+名称为key，文件内容为value。...

在Hadoop中作业运行的时候，Map的数量是由输入分片的数量决定的，但是分片的数量，并不是简单的按照文件的大小和blockSize的大小来切分的，分片的数量其实也是经过一系列的计算得到的，我们常用的InputFormat很多都...

所以根据需要对InputFormat进行较合理的设置，Job才能正常运行。Job过程中间的Key和Value的对应关系可以简单阐述如下： map: <k1,v1> -> list(k2,v2) combile: <k2,list(v2)> ->

InputFormat是MapReduce用于处理数据输入的一个最顶级的抽象父类 InputFormat实现结构 FileInputFormat常用类类名主要作用 TextInputFormat 读取文本文 CombineInputFormat 在MR当中用于合并小文件，将...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章