CSDN在线培训——Hadoop 2.0新特性剖析及应用

u013424982 2014-05-12 09:44:11
加精
演讲嘉宾
董西成
ChinaHadoop小象社区核心成员
嘉宾介绍:《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕:深入解析YARN架构设计与实现原理》作者。资深Hadoop技术实践者和研究者,曾参与商用Hadoop原型研发,以及分布式日志系统、全网图片搜索引擎、Hadoop调度器等项目的设计与研发。

报名地址:http://huiyi.csdn.net/module/meeting/meeting/info/878/biz?project_id=1007

【课程时间】:2014年5月14日(周三) 20:50 - 22:00

【课程安排】:20:50—21:00 通过邮件地址登录网络课堂
21:00—22:00 主题演讲(董西城)与QA

PS:课程咨询请加入QQ群:CSDN在线培训群(284712772)

【温馨提示】: 在线视频直播互动,采用三分屏模式,让您感受真实的课堂环境。本次会议机会难得,由于报名人员较多,将对申请参会者进行资格审核,请您务必填写个人信息以便通知(短信、邮件)及时送达,保证您的顺利参会。邮件和短信提醒将会在课程前一天发出,请注意查收!具体时间以邮件通知为准!

课程介绍:Hadoop 2.0新特性剖析及应用

课程大纲:

1. HDFS 2.0新特性剖析及应用
(1)NameNode HA
(2)NameNode Federation
(3)HDFS 快照(snapshot)
(4)HDFS 缓存(in-memory cache)
(5)HDFS ACL
(6)异构层级存储结构(Heterogeneous Storage hierarchy)

2. YARN新特性剖析及应用
(1)ResourceManager HA
(2)对多框架的支持
(3)对多类型资源的调度策略
(4)history log server与timeline server
(5)对long-lived service的支持

3. MapReduce新特性剖析及应用
(1)MapReduce as a client library好处

【适合群体】:

1. 系统架构师、系统分析师、高级程序员、资深开发人员。  

2. 牵涉到大数据处理的数据中心运行、规划、设计负责人。  

3. 政府机关,金融保险、移动和互联网等大数据来源单位的负责人。  

4. 高校、科研院所涉及到大数据与分布式数据处理的项目负责人。  

5. 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员


报名地址:http://huiyi.csdn.net/module/meeting/meeting/info/878/biz?project_id=1007


Q:我们有几个T数据,用6台机器做Hadoop做数据分析有效果吗?

比一台机器效果好很多。一旦你们使用了Hadoop后,便可以享受到它良好的扩展性和容错性带来的优势,当数据规模增长后,会让你们受益。

Q:YARN的多类型资源调度策略是 基于linux cgroups的吗?

答:YARN的多类型资源调度采用的是DRF算法,这个算法源自与YARN类似的一个开源项目Mesos,你可以下载DRF论文(链接:http://people.csail.mit.edu/matei/papers/2011/nsdi_drf.pdf)仔细了解该算法。YARN的CPU资源隔离采用了linux cgroups(默认不会隔离,需显式启动该功能),但不会显式对内存进行隔离,而是采用了基于线程监控的方法,即在每个节点上启动一个线程,监控其上的任务内存资源使用量,一旦发现超额使用便将其杀死,相比于cgroups这样隔离方案,该方式更加灵活。

Q:如果是多namenode,core-site中的Hadoop://IP:port,怎么设定

视情况而定,如果你配置了HA, 那么当访问HDFS时,只需指定逻辑名称就行,不需要指定IP和port(可以执行active NN的ip和host,但通常不建议这样做),如果启用了Federation功能,则可以通过HDFS提供的viewFS配置对外统一的文件系统视图,具体可参考官方文档:http://hadoop.apache.org/docs/r2.4.0/hadoop-project-dist/hadoop-hdfs/ViewFs.html

Q:针对跨数据中心的Hadoop集群,某些厂商提出了HBase的超级大表,说是用户应用可实现位置透明的数据访问和统计,那Hadoop2.0对跨机房集群在框架上有什么好的解决方案?

建议你参考之前阿里巴巴这方面的工作:http://adc.alibabatech.org/carnival/history/schedule/2013/detail/main/286

Q:HDFS支持异构的存储介质的方案中,是否可以考虑借鉴类似openstack中的cinder/swift等存储方案?因为异构数据(结构/非结构)不仅仅依赖于FS,对上的数据库引擎/数据仓库ETL也很重要,存储在某种程度上可以实现分布与集中的混合

我不太了解openstack中对异构存储介质的支持机制是怎样的,但是,HDFS对这方面的支持正是源于上层计算框架的需要。

Q:HDFS缓存功能,是否可以实现动态调整数据副本的数量能力,来提高用户对数据访问的效率?

目前第一版还不支持,后续应该会增加该功能,具体可参考这个jira中得到文档:https://issues.apache.org/jira/browse/HDFS-4949

Q:Hadoop2框架上对MR任务部署,是否有增强的监控能力,比如模拟job的每步骤的时长,从而实现对MR的性能调优?

Hadoop2本身没有做这些事情,这些交给外围工具去做。一般各个公司会根据自己的需要增加一些监控信息,如果你们有这样的需求,也建议你们这样做。

Q:Spark是支持多线程的任务,但Hadoop只是支持多进程,所以资源/任务调配,同步在机制上如何解决?

Spark和Hadoop都是基于任务之间没有依赖这一前提的设计的,这样才能做到高度并发和无限扩展,当然,也有一些特殊的计算,比如图计算,是强依赖的,这时候需要进行一些任务间的同步,者通过有专门的框架实现,比如Apache Giraph基于MR实现了BSP模型,可从一定从堵上解决同步问题。

Q:对比Mesos和YARN各有什么特点,哪个会发展更好?另外,YARN部署长服务(比如mysql),跟Docker这种基于lxc容器的技术相比有何优势?

Mesos和YARN均是资源管理系统,从一定程度上说,是竞争关系,他们的区别仅在于一些细节上的实现,比如调度框架等,目前看来,Mesos对长服务的支持优于YARN,但是YARN的社区更加活跃,发展更加迅猛,它在长服务的支持方面也越来越完善,因此个人更看好YARN。一般资源管理系统具有资源管理调度和服务部署两个功能,Mesos和YARN都具备这两个功能,但Docker仅仅具备服务部署功能,没有资源调度,因此Docker不是资源管理系统,仅仅是一个服务自动化部署系统,举个例子,在Docker上部署服务,你需要指定一个节点或者虚拟机,但Mesos和YARN则不用。当然,Docker提供了打包服务(镜像),可以将程序依赖打成一个独立的包,这一点mesos和yarn是不具有的。总之,个人认为,将来的服务部署的趋势是两种系统的融合:即应该有像Docker一样的打包服务,也应该具备像YARN和Mesos那样资源调度的功能。

Q:主从备份是写数据过去还是写那种元数据日志过去呢?

主从之间是通过同步fseidits数据达到同步元数据信息目的的,你可以认为不是直接同步的元数据信息,而是同步的两个元信息的diff。

Q:我在学习Hadoop的时候,长时间没有什么成长,能否给一些比较有建设性的建议呢?

多参与实际的Hadoop项目,在项目中学习和成长。如果公司有相关项目,则主动请缨,如果没有项目,但你对这方面十分感兴趣,想朝着这方面发展,则建议你换个工作。

Q:权限修改之后 ls 之后是什么样子的 owner还只是Bob吗?

还是Bob,这个是不会改变的(文件拥有者不会变,但跟拥有者具有相同权限的用户可以有很多)。但你可以通过HDFS ACL命令查看这个目录或文件实际完整的权限。

Q:Hadoop 2.0 目前和kerbros的关系还和1.0一样吗?

Hadoop 2.0的安全机制与1.0是一样的,也是基于kerberos实现的。

Q:现在hortonworks开发了Hadoop2.0 而且是支持windows环境,想问一下,现在Hadoop在windows上应用是否稳定,并且和linux的性能是否有差别?

官方号称windows版本是稳定的,个人没有试过。



Q:请问,HDFS的文件缓存功能,一个Block缓存在多个节点,还是一个节点?

如果一个block有三个副本,且在不同节点上,则三个副本可以同时被缓存在对应节点上,也可以只缓存一个,其他两个仍保存到磁盘上。(目前只实现了前者,后者尚未实现)。

Q:现在有什么大公司在用Yarn上使用Spark跑上线系统?

有不少公司使用了spark on yarn,比如阿里巴巴,hulu等,你可以在网上找一下。

Q:Hadoop 2.0对虚拟化的支持有什么变化吗?

Hadoop 2.0自身没有做虚拟化,但是可以运行在虚拟化环境中。

Q:请问,Hadoop上只能跑JAVA应用吗,别的语言的应用可不可以部署在上面?

可以。YARN之上可以运行任何语言的程序,这些程序只要是通过shell命令启动就行。

Q:是搞Hadoop底层性能优化好,还是搞大数据分析建立算法新范式好?

都好,关键是做到极致。

Q:在Hadoop2.3.0中可以不使用机器名来运行Hadoop集群吗?请问Hadoop2中可以不在hosts文件中配置机器名来运行集群吗

Hadoop 1.0和2.0都可以不在hosts中配置机器名,但是这样不便于集群的管理和透明迁移。因此,规范的公司会使用host而不是ip。

Q:我是学生,是个初学者,Hadoop现在已经到2.x版本了,但是我有一套0.x的Hadoop视频,我可以按照0.x的视频学习吗?这样从0.x到2.x过渡会不会太大?

取决于你的方面,如果你是Hadoop使用者,那么你关注的只是API,这方面1.0和2.0是基本一样的,但如果你是Hadoop运维人员或者内核开发工程师,则1.0到2.0的过渡比较答,尤其是2.0引入YARN之后,则完全变了。不管怎样,学习Hadoop 1.0对将来学习Hadoop 2.0会有很大帮助。

...全文
3380 16 打赏 收藏 转发到动态 举报
写回复
用AI写文章
16 条回复
切换为时间正序
请发表友善的回复…
发表回复
jeky_zhang2013 2014-05-31
  • 打赏
  • 举报
回复
有所收获,继续学习~~
oFlying123456789 2014-05-26
  • 打赏
  • 举报
回复
持续关注中。。。。。
vidal_1st 2014-05-22
  • 打赏
  • 举报
回复
董老师讲课的时候提到,阿里巴巴已经“去Hadoop了”,这是确切消息么,还是去Hadoop1/MapReduce了?
leojomo 2014-05-22
  • 打赏
  • 举报
回复
表示没有收到视屏和PPT
qgchenting 2014-05-19
  • 打赏
  • 举报
回复
木有了~
  • 打赏
  • 举报
回复
shluochen 2014-05-16
  • 打赏
  • 举报
回复
这,过期了啊。。。。
翔宇0720 2014-05-15
  • 打赏
  • 举报
回复
没赶上
路远兮 2014-05-14
  • 打赏
  • 举报
回复
请问,hadoop是不是只能部署java应用呢,其他语言的应用可不可以部署在上面
stayeveryoung 2014-05-14
  • 打赏
  • 举报
回复
谢谢 分享
萝卜07 2014-05-14
  • 打赏
  • 举报
回复
看完了,不错!
he717 2014-05-14
  • 打赏
  • 举报
回复
主nn与备nn是否要分开部署到两台服务器上?
朝露昙花 2014-05-14
  • 打赏
  • 举报
回复
看看啊额,,,看看啊额................
newbdelphi 2014-05-13
  • 打赏
  • 举报
回复
my03131302 2014-05-13
  • 打赏
  • 举报
回复
我是啊是 2014-05-13
  • 打赏
  • 举报
回复
看看啊额

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧