社区
Hadoop生态社区
帖子详情
新手求问,hadoop集群中,master节点上会跑map/reduce任务吗
kartve1990
2014-07-16 09:18:58
如题,新手小白,理解不是很深,求助~比如 1 master+ 1slave 组成的两台计算机的集群,性能(运行hive sql)和伪分布式比有什么区别?
...全文
530
4
打赏
收藏
新手求问,hadoop集群中,master节点上会跑map/reduce任务吗
如题,新手小白,理解不是很深,求助~比如 1 master+ 1slave 组成的两台计算机的集群,性能(运行hive sql)和伪分布式比有什么区别?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
4 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
运维小白
2014-07-20
打赏
举报
回复
一般来说,namenode只存储元数据,datanode存储的是实际的数据(关于元数据的概念可以自行谷歌和度娘)。而如果决定执行任务的是jobtracker和tasktracker,jobtracker是调度任务给tasktracker执行,一般情况下是master上面部署了namenode和jobtracker,slave上面部署了datanode和tasktracker。所以,只有没有tasktracker这个进程的话,就不会执行计算任务
kartve1990
2014-07-17
打赏
举报
回复
求问,大致给我说下就ok啦
liqi_wj
2014-07-17
打赏
举报
回复
最后的map task 和 reduce task 都是在nodeManage中执行的 ,如果你的master是nodemanger就会跑
tchqiq
2014-07-17
打赏
举报
回复
master和salve不都是自己指定的么?关键看里面有什么进程在跑着。你所谓的master是指这台机器上有namenode和jobtracker的进程,slave是datanode和tasktracker的进程吧?namenode是hdfs的老大,datanode是小弟,和老大有个心跳,有个节点挂了的话,老大找不到,他上边的数据放到其它小弟那。jobtracker是mapreduce的老大,老大不干活,它是交给各个小弟干活的,他只管调度,比如有个tasktracker任务失败了,他就让其它小弟代替这个不行的小弟干活。hdfs管存数据,mapreduce管计算,他俩的老大没必要非在一个机器上啊~ 你伪分布就一个机器,老大、小弟都在上边,相当于一个机器跑全部数据。多台就可以把数据切片分给多个小弟跑任务,而且也可以给多个节点存数据,不管是安全还是效率肯定比一个的强啊。 我也是刚工作不久~我的理解比较浅显。你参考参考~有什么问题请指正
hadoop
1.2.1 api 最新chm 伪
中
文版
hadoop
1.2 api 伪
中
文版。支持即时查询,高级查询。方便编码学习。 大数据炙手可热!
hadoop
是一个大数据分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用
集群
的威力高速运算和存储。
Hadoop
实现了一个分布式文件系统(
Hadoop
Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。 HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统
中
的数据。
Hadoop
Map
/
Reduce
是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型
集群
上,并以一种可靠容错的方式并行处理上T级别的数据集。 一个
Map
/
Reduce
作业(job) 通常会把输入的数据集切分为若干独立的数据块,由
map
任务
(task)以完全并行的方式处理它们。框架会对
map
的输出先进行排序, 然后把结果输入给
reduce
任务
。通常作业的输入和输出都会被存储在文件系统
中
。 整个框架负责
任务
的调度和监控,以及重新执行已经失败的
任务
。 通常,
hadoop
Map
/
Reduce
框架和分布式文件系统是运行在一组相同的
节点
上的,也就是说,计算
节点
和存储
节点
通常在一起。这种配置允许框架在那些已经存好数据的
节点
上高效地调度
任务
,这可以使整个
集群
的网络带宽被非常高效地利用。
Map
/
Reduce
框架由一个单独的
master
JobTracker 和每个
集群
节点
一个slave TaskTracker共同组成。
master
负责调度构成一个作业的所有
任务
,这些
任务
分布在不同的slave上,
master
监控它们的执行,重新执行已经失败的
任务
。而slave仅负责执行由
master
指派的
任务
。 应用程序至少应该指明输入/输出的位置(路径),并通过实现合适的接口或抽象类提供
map
和
reduce
函数。再加上其他作业的参数,就构成了作业配置(job configuration)。然后,
Hadoop
的 job client提交作业(jar包/可执行程序等)和配置信息给JobTracker,后者负责分发这些软件和配置信息给slave、调度
任务
并监控它们的执行,同时提供状态和诊断信息给job-client。 虽然
Hadoop
框架是用JavaTM实现的,但
Map
/
Reduce
应用程序则不一定要用 Java来写 。
一步一步跟我学习
hadoop
(4)----
hadoop
Map
/
Reduce
教程(1)
Hadoop
Map
/
Reduce
说明
hadoop
Map
/
Reduce
是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型
集群
上,并以一种可靠容错的方式并行处理上T级别的数据集。 一个
Map
/
Reduce
作业经常讲数据集切分成独立的块,这些块通过
map
任务
并行处理,框架对
map
的输出进行排序,排序结果会被
reduce
以输入参数进行接收。通常作
【企业级】Docker项目实战:一键部署
Hadoop
集群
(跨物理
节点
)
此课程是Docker技术+
Hadoop
技术+ Linux Shell编程的深度综合应用。本课程的成果,自己平时工作学习就能用,可以轻松在自己笔记本上启动10~20个分布式
节点
!在找工作和面试时,能用它进行演示,展示自己的水平,为自己加分!只用一个命令,就可以实现基于Docker容器的任意
节点
Hadoop
集群
的部署,即使是1000个
节点
的
集群
,也可以轻松运维。课程内容涉及Docker运行环境构建、Docker常用命令使用、Docker Dockerfile文件编写、Docker镜像构建、Docker存储驱动使用、Docker bridge网络、Docker Overlay网络、基于Docker的分布式
集群
构建、
Hadoop
集群
构建等多种技术的综合应用。
Hadoop
Map
/
Reduce
执行流程详解
Hadoop
Map
/
Reduce
执行流程详解 转载
Map
/
Reduce
一个
Map
/
Reduce
作业(job) 通常会把输入的数据(input file)切分为若干独立的数据块(splits),然后由
map
任务
(task)以完全并行的方式处理它们。
Map
/
Reduce
框架会对
map
的输出做一个 Shuffle 操作,Shuffle 操作的后的结果会输入给
reduce
任
Hadoop
集群
配置
三个数据
节点
(datanode)——小弟,在
master
、slave1与slave2虚拟机上。--关闭虚拟内存检测,在虚拟机环境
中
不做配置会报错-->(2)编辑
Hadoop
核心配置文件 - core-site.xml。--用来指定
hadoop
运行时产生文件的存放目录-->(3)编辑HDFS配置文件 - hdfs-site.xml。--配置资源管理器:
集群
master
-->--配置
节点
管理器上运行的附加服务-->)在
master
、slave1与slave2虚拟机上。--配置MR资源调度框架YARN-->
Hadoop生态社区
20,809
社区成员
4,691
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章