Hadoop中如何获取正在运行的Mapper的个数

beiyangxiao 2013-05-02 09:47:30

哪位高手知道编写MapReduce时，如何获取正在执行的Mapper和Reducer的个数吗？有这个API么？

...全文

247 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

撸大湿 2013-05-02

打赏
举报

可以通过JOB STATUS或者profiling获取但用这个作为监控执行中的MAP或REDUCE的个数并不太好。因为JOBTRACKER和TASKTRACKER之间的监控有延时，就是那个恶心的3000毫秒常量你监控的所有数据最少有3秒钟的延时，最长6秒钟。推荐你个简单搞笑的的办法， 1、在MAP或REDUCE方法的SETUP函数中，加入一个实时写入HDFS的功能。 MAP或REDUCE拉起来时，就把JOB_ID+TASKER_ID+start time 写入一个文件下的文件。 2、当MAP或者REDUCE结束时，在cleanUP函数中记录JOB_ID+TASKER_ID+stop time 复写原文件利用HDFS API，写一个JAVA CLIENT去监控，1秒轮循扫，瞬间就能看结果

该方法包含三个参数，均由框架自动传入，前面两个参数是key/value，第三个参数numPartitions表示每个Mapper的分片数，也就是Reducer的个数。MapReduce提供了两个Partitioner实现：HashPartitioner和Total

如果HDFS中dfs.block.size设置为128m，而输入的目录中文件有100个，则划分后的split个数至少为100个。当块（dfs.block.size）为128m时，如果输入文件为128m，会被划分为1个split；分片是按照splitszie的大小进行分割...

Hadoop入门和大数据应用视频教程，该课程主要分享Hadoop基础及大数据方面的基础知识。讲师介绍：翟周伟，就职于百度，Hadoop技术讲师，专注于Hadoop&大数据、数据挖掘、自然语言处理等领域。2009年便开始利用...

Hadoop | MapReduce学习笔记（一）使用Java实现MapReduce编程 | 打包词频统计程序为jar包提交到Hadoop集群并运行 | Mapper、Reducer、Driver

上周听师兄做分享，讲到他如何设定每个节点可以并行启动的最大...在hadoop1.0版本里，集群最多并行的mapper个数可以这样计算，首先通过mapred.tasktracker.map.tasks.maximum 设定单个节点最多并行的mapper个数，然