CSDN在线培训——Hadoop 2.0新特性剖析及应用

u013424982 2014-05-12 09:44:11

加精

演讲嘉宾
董西成
ChinaHadoop小象社区核心成员
嘉宾介绍：《Hadoop技术内幕：深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕：深入解析YARN架构设计与实现原理》作者。资深Hadoop技术实践者和研究者，曾参与商用Hadoop原型研发，以及分布式日志系统、全网图片搜索引擎、Hadoop调度器等项目的设计与研发。

报名地址：http://huiyi.csdn.net/module/meeting/meeting/info/878/biz?project_id=1007

【课程时间】：2014年5月14日（周三） 20：50 - 22：00

【课程安排】：20:50—21:00 通过邮件地址登录网络课堂
21:00—22:00 主题演讲（董西城）与QA

PS:课程咨询请加入QQ群：CSDN在线培训群（284712772）

【温馨提示】：在线视频直播互动，采用三分屏模式，让您感受真实的课堂环境。本次会议机会难得，由于报名人员较多，将对申请参会者进行资格审核，请您务必填写个人信息以便通知（短信、邮件）及时送达，保证您的顺利参会。邮件和短信提醒将会在课程前一天发出，请注意查收！具体时间以邮件通知为准！

课程介绍：Hadoop 2.0新特性剖析及应用

课程大纲：

1. HDFS 2.0新特性剖析及应用
（1）NameNode HA
（2）NameNode Federation
（3）HDFS 快照（snapshot）
（4）HDFS 缓存（in-memory cache）
（5）HDFS ACL
（6）异构层级存储结构（Heterogeneous Storage hierarchy）

2. YARN新特性剖析及应用
（1）ResourceManager HA
（2）对多框架的支持
（3）对多类型资源的调度策略
（4）history log server与timeline server
（5）对long-lived service的支持

3. MapReduce新特性剖析及应用
（1）MapReduce as a client library好处

【适合群体】：

1. 系统架构师、系统分析师、高级程序员、资深开发人员。　

2. 牵涉到大数据处理的数据中心运行、规划、设计负责人。　

3. 政府机关，金融保险、移动和互联网等大数据来源单位的负责人。　

4. 高校、科研院所涉及到大数据与分布式数据处理的项目负责人。　

5. 数据仓库管理人员、建模人员，分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员

报名地址：http://huiyi.csdn.net/module/meeting/meeting/info/878/biz?project_id=1007

Q:我们有几个T数据，用6台机器做Hadoop做数据分析有效果吗？

比一台机器效果好很多。一旦你们使用了Hadoop后，便可以享受到它良好的扩展性和容错性带来的优势，当数据规模增长后，会让你们受益。

Q:YARN的多类型资源调度策略是基于linux cgroups的吗？

答：YARN的多类型资源调度采用的是DRF算法，这个算法源自与YARN类似的一个开源项目Mesos，你可以下载DRF论文（链接：http://people.csail.mit.edu/matei/papers/2011/nsdi_drf.pdf）仔细了解该算法。YARN的CPU资源隔离采用了linux cgroups（默认不会隔离，需显式启动该功能），但不会显式对内存进行隔离，而是采用了基于线程监控的方法，即在每个节点上启动一个线程，监控其上的任务内存资源使用量，一旦发现超额使用便将其杀死，相比于cgroups这样隔离方案，该方式更加灵活。

Q:如果是多namenode,core-site中的Hadoop：//IP:port,怎么设定

视情况而定，如果你配置了HA, 那么当访问HDFS时，只需指定逻辑名称就行，不需要指定IP和port（可以执行active NN的ip和host，但通常不建议这样做），如果启用了Federation功能，则可以通过HDFS提供的viewFS配置对外统一的文件系统视图，具体可参考官方文档：http://hadoop.apache.org/docs/r2.4.0/hadoop-project-dist/hadoop-hdfs/ViewFs.html

Q:针对跨数据中心的Hadoop集群，某些厂商提出了HBase的超级大表，说是用户应用可实现位置透明的数据访问和统计，那Hadoop2.0对跨机房集群在框架上有什么好的解决方案？

建议你参考之前阿里巴巴这方面的工作：http://adc.alibabatech.org/carnival/history/schedule/2013/detail/main/286

Q:HDFS支持异构的存储介质的方案中，是否可以考虑借鉴类似openstack中的cinder/swift等存储方案？因为异构数据（结构/非结构）不仅仅依赖于FS，对上的数据库引擎/数据仓库ETL也很重要，存储在某种程度上可以实现分布与集中的混合

我不太了解openstack中对异构存储介质的支持机制是怎样的，但是，HDFS对这方面的支持正是源于上层计算框架的需要。

Q:HDFS缓存功能，是否可以实现动态调整数据副本的数量能力，来提高用户对数据访问的效率？

目前第一版还不支持，后续应该会增加该功能，具体可参考这个jira中得到文档：https://issues.apache.org/jira/browse/HDFS-4949

Q:Hadoop2框架上对MR任务部署，是否有增强的监控能力，比如模拟job的每步骤的时长，从而实现对MR的性能调优？

Hadoop2本身没有做这些事情，这些交给外围工具去做。一般各个公司会根据自己的需要增加一些监控信息，如果你们有这样的需求，也建议你们这样做。

Q:Spark是支持多线程的任务，但Hadoop只是支持多进程，所以资源/任务调配，同步在机制上如何解决？

Spark和Hadoop都是基于任务之间没有依赖这一前提的设计的，这样才能做到高度并发和无限扩展，当然，也有一些特殊的计算，比如图计算，是强依赖的，这时候需要进行一些任务间的同步，者通过有专门的框架实现，比如Apache Giraph基于MR实现了BSP模型，可从一定从堵上解决同步问题。

Q:对比Mesos和YARN各有什么特点，哪个会发展更好？另外，YARN部署长服务（比如mysql），跟Docker这种基于lxc容器的技术相比有何优势？

Mesos和YARN均是资源管理系统，从一定程度上说，是竞争关系，他们的区别仅在于一些细节上的实现，比如调度框架等，目前看来，Mesos对长服务的支持优于YARN，但是YARN的社区更加活跃，发展更加迅猛，它在长服务的支持方面也越来越完善，因此个人更看好YARN。一般资源管理系统具有资源管理调度和服务部署两个功能，Mesos和YARN都具备这两个功能，但Docker仅仅具备服务部署功能，没有资源调度，因此Docker不是资源管理系统，仅仅是一个服务自动化部署系统，举个例子，在Docker上部署服务，你需要指定一个节点或者虚拟机，但Mesos和YARN则不用。当然，Docker提供了打包服务（镜像），可以将程序依赖打成一个独立的包，这一点mesos和yarn是不具有的。总之，个人认为，将来的服务部署的趋势是两种系统的融合：即应该有像Docker一样的打包服务，也应该具备像YARN和Mesos那样资源调度的功能。

Q:主从备份是写数据过去还是写那种元数据日志过去呢？

主从之间是通过同步fseidits数据达到同步元数据信息目的的，你可以认为不是直接同步的元数据信息，而是同步的两个元信息的diff。

Q:我在学习Hadoop的时候，长时间没有什么成长，能否给一些比较有建设性的建议呢？

多参与实际的Hadoop项目，在项目中学习和成长。如果公司有相关项目，则主动请缨，如果没有项目，但你对这方面十分感兴趣，想朝着这方面发展，则建议你换个工作。

Q:权限修改之后 ls 之后是什么样子的 owner还只是Bob吗？

还是Bob，这个是不会改变的（文件拥有者不会变，但跟拥有者具有相同权限的用户可以有很多）。但你可以通过HDFS ACL命令查看这个目录或文件实际完整的权限。

Q:Hadoop 2.0 目前和kerbros的关系还和1.0一样吗？

Hadoop 2.0的安全机制与1.0是一样的，也是基于kerberos实现的。

Q:现在hortonworks开发了Hadoop2.0 而且是支持windows环境，想问一下，现在Hadoop在windows上应用是否稳定，并且和linux的性能是否有差别？

官方号称windows版本是稳定的，个人没有试过。

Q:请问，HDFS的文件缓存功能，一个Block缓存在多个节点，还是一个节点？

如果一个block有三个副本，且在不同节点上，则三个副本可以同时被缓存在对应节点上，也可以只缓存一个，其他两个仍保存到磁盘上。（目前只实现了前者，后者尚未实现）。

Q:现在有什么大公司在用Yarn上使用Spark跑上线系统？

有不少公司使用了spark on yarn，比如阿里巴巴，hulu等，你可以在网上找一下。

Q:Hadoop 2.0对虚拟化的支持有什么变化吗？

Hadoop 2.0自身没有做虚拟化，但是可以运行在虚拟化环境中。

Q:请问，Hadoop上只能跑JAVA应用吗，别的语言的应用可不可以部署在上面?

可以。YARN之上可以运行任何语言的程序，这些程序只要是通过shell命令启动就行。

Q:是搞Hadoop底层性能优化好，还是搞大数据分析建立算法新范式好？

都好，关键是做到极致。

Q:在Hadoop2.3.0中可以不使用机器名来运行Hadoop集群吗？请问Hadoop2中可以不在hosts文件中配置机器名来运行集群吗

Hadoop 1.0和2.0都可以不在hosts中配置机器名，但是这样不便于集群的管理和透明迁移。因此，规范的公司会使用host而不是ip。

Q:我是学生，是个初学者，Hadoop现在已经到2.x版本了，但是我有一套0.x的Hadoop视频，我可以按照0.x的视频学习吗？这样从0.x到2.x过渡会不会太大？

取决于你的方面，如果你是Hadoop使用者，那么你关注的只是API，这方面1.0和2.0是基本一样的，但如果你是Hadoop运维人员或者内核开发工程师，则1.0到2.0的过渡比较答，尤其是2.0引入YARN之后，则完全变了。不管怎样，学习Hadoop 1.0对将来学习Hadoop 2.0会有很大帮助。

...全文