新手求问,hadoop集群中,master节点上会跑map/reduce任务吗

kartve1990 2014-07-16 09:18:58
如题,新手小白,理解不是很深,求助~比如 1 master+ 1slave 组成的两台计算机的集群,性能(运行hive sql)和伪分布式比有什么区别?
...全文
530 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
运维小白 2014-07-20
  • 打赏
  • 举报
回复
一般来说,namenode只存储元数据,datanode存储的是实际的数据(关于元数据的概念可以自行谷歌和度娘)。而如果决定执行任务的是jobtracker和tasktracker,jobtracker是调度任务给tasktracker执行,一般情况下是master上面部署了namenode和jobtracker,slave上面部署了datanode和tasktracker。所以,只有没有tasktracker这个进程的话,就不会执行计算任务
kartve1990 2014-07-17
  • 打赏
  • 举报
回复
求问,大致给我说下就ok啦
liqi_wj 2014-07-17
  • 打赏
  • 举报
回复
最后的map task 和 reduce task 都是在nodeManage中执行的 ,如果你的master是nodemanger就会跑
tchqiq 2014-07-17
  • 打赏
  • 举报
回复
master和salve不都是自己指定的么?关键看里面有什么进程在跑着。你所谓的master是指这台机器上有namenode和jobtracker的进程,slave是datanode和tasktracker的进程吧?namenode是hdfs的老大,datanode是小弟,和老大有个心跳,有个节点挂了的话,老大找不到,他上边的数据放到其它小弟那。jobtracker是mapreduce的老大,老大不干活,它是交给各个小弟干活的,他只管调度,比如有个tasktracker任务失败了,他就让其它小弟代替这个不行的小弟干活。hdfs管存数据,mapreduce管计算,他俩的老大没必要非在一个机器上啊~ 你伪分布就一个机器,老大、小弟都在上边,相当于一个机器跑全部数据。多台就可以把数据切片分给多个小弟跑任务,而且也可以给多个节点存数据,不管是安全还是效率肯定比一个的强啊。 我也是刚工作不久~我的理解比较浅显。你参考参考~有什么问题请指正
hadoop 1.2 api 伪文版。支持即时查询,高级查询。方便编码学习。 大数据炙手可热!hadoop是一个大数据分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。 HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统的数据。 Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。 一个Map/Reduce 作业(job) 通常会把输入的数据集切分为若干独立的数据块,由 map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序, 然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统。 整个框架负责任务的调度和监控,以及重新执行已经失败的任务。 通常,hadoop Map/Reduce框架和分布式文件系统是运行在一组相同的节点上的,也就是说,计算节点和存储节点通常在一起。这种配置允许框架在那些已经存好数据的节点上高效地调度任务,这可以使整个集群的网络带宽被非常高效地利用。 Map/Reduce框架由一个单独的master JobTracker 和每个集群节点一个slave TaskTracker共同组成。master负责调度构成一个作业的所有任务,这些任务分布在不同的slave上,master监控它们的执行,重新执行已经失败的任务。而slave仅负责执行由master指派的任务。 应用程序至少应该指明输入/输出的位置(路径),并通过实现合适的接口或抽象类提供mapreduce函数。再加上其他作业的参数,就构成了作业配置(job configuration)。然后,Hadoop的 job client提交作业(jar包/可执行程序等)和配置信息给JobTracker,后者负责分发这些软件和配置信息给slave、调度任务并监控它们的执行,同时提供状态和诊断信息给job-client。 虽然Hadoop框架是用JavaTM实现的,但Map/Reduce应用程序则不一定要用 Java来写 。

20,809

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧