mapreduce不切分文件

学习的鱼儿 2017-03-28 10:24:11

如果 mapreduce TextInputFormat源码把
这个方法
protected boolean isSplitable(JobContext context, Path filename) {
// TODO Auto-generated method stub
return false;
}

这个方法改为false，不进行切分，比如hdfs有30个块，那么MapReduce会怎么对hdfs这30个块进行处理？
求指教！

...全文

290 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

tchqiq 2017-04-06

打赏
举报

回复

mr默认是按block块大小切分的,一个block块对应一个map(可以查查map数的几个参数),如果修改这个参数,应该是就只有一个map去处理30个block了

NULL 博文链接：https://yehao0716.iteye.com/blog/2295163

在MapReduce刚开始的时候，会先对文件进行切片(Split)处理。需要注意的是，切片本身是一种逻辑切分而不是物理切分，本质上就是在划分任务量，之后每一个切片会交给一个单独的MapTask来进行处理。默认情况下，Split和...

通过学习MapReduce程序，如何输入文件是两个文件，Partitioner的用法，Combiner的用法，自定义对象，排序sort，topN问题，全局变量，剖析源码单步调试详解MapReduce分组group遍历，reduce当中的cleanup的用法，...

Google MapReduce实施了一系列的优化。 • 分区函数：保证不同map输出的相同key，落到同一个reduce里 • 合并函数：在map结束时，对相同key的多个输出做本地合并，节省...• 输入文件到map如何切分：随意，切分均匀就行

针对上述问题，提出了一种基于Hadoop的语音识别系统，借助其分布式文件系统HDFS与MapReduce并行算法解决文件片段传输与并行调度控制的问题，同时引入静音检测算法合理地处理文件切分，通过实验验证了该系统的有效性...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章