关于MapReduce一个很弱的问题请教一下

pass9wen33 2012-11-13 06:56:40

本人刚开始接触这一块，关于处理前的分块，我看资料上说MapReduce是随机分块的，不知道能不能按照指定的规则分块呢，例如一堆数据，我要根据编号来分块，能做吗，怎么做？请大神指教啦~

...全文

259 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

cranley 2013-01-08

打赏
举报

回复

MAPREDUCE框架中类InputFormat的方法 List<InputSplit> getSplits(JobContext context ) throws IOException, InterruptedException; 这个就是用来做自定义数据分块的。具体应用可以参考FileInputFormat.getSplits中的代码，它实现按文件块大小作为依据，来切割整个文件得到文件处理块列表List<InputSplit>

半夜郎中 2012-12-03

打赏
举报

回复

可以参考一下这篇文章http://blog.csdn.net/jdream314/article/details/8243890

面包里的代码 2012-11-26

打赏
举报

回复

共同学习之。。

lldustc 2012-11-15

打赏
举报

回复

文件存入HDFS时已经进行了分块，这个应该是按照系统设置的分块大小进行分块的。但你说的分块我不知道你是想说把每一个文件看成一块还是按文件里的数据的某一个字段，字段满足要求看成一块，你写清楚你的需求，最好举一个例子

接触Hadoop有两年的时间了，期间遇到很多的问题，既有经典的NameNode和JobTracker内存溢出故障，也有HDFS存储小文件问题，既有任务调度问题，也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷（短板），...

作为一个新手，此篇文章就不对MapReduce的原理做过多介绍了（我也不会。。。），只是从使用的层面，跟大家分享一下我在学习中遇到的问题以及解决办法，希望对像我一样的新手有帮助。我的工作中需要MapReduce对Hbase...

请教一个问题：在集群上运行Mapreduce V2程序，每次处理大约100G-400G的数据，但是程序运行后，NodeManager机器的CPU会达到100%，直到任务结束，内存使用正常。在NodeManager机器上，使用jps命令，

文章目录石器时代青铜时代蒸汽机时代为什么 MapReduce 会被取代高昂的维护成本时间性能“达不到”用户的期待小结我有幸几次与来 Google 参观的同行进行交流，当谈起数据处理技术时，他们总是试图打探 MapReduce ...

常见的MapReduce任务示例3.1 简单的单词计数任务3.1.1 自动排序功能~~~~~~~首先给出定义：Mapper与Reducer是MapReduce编程模型的两个核心组件，用于处理大规模数据集的并行计算。Mapper（映射器）：Mapper的主要...

Hadoop生态社区

20,811

社区成员

4,691

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章