Spark SQL 1.2、Tachyon解析+百度BMR数据分析平台及NewShuffle应用实践

仲浩 2015-01-22 04:56:50

2015年1月10日，一场基于Spark的高性能应用盛宴由Databricks软件工程师连城、百度高级工程师甄鹏、百度架构师孙垚光、百度美国研发中心高级架构师刘少山四位专家联手打造。其中，Databircks是Spark的创建公司，而百度则是国内规模最大的Spark集群的运营者（基于此前国内各大Spark用户公布的数据）——实际生产环境，最大单集群规模1300台（包含数万核心和上百TB内存），公司内部同时还运行着大量的小型Spark集群。

内容包括：

连城——Spark SQL 1.2的提升和新特性
甄鹏——Spark在百度开放云BMR中的实战分享
孙垚光——百度高性能通用Shuffle服务
刘少山——Fast big data analytics with Spark on Tachyon

详情传送门：Spark技术解析及其在百度最大千台单集群的应用实践

QA环节（节选）

Shuffle相关技术问题

1. 新Shuffle是否会增加网络IO？
新Shuffle的确会增加一些网络IO，但是百度内部集群已经逐渐过渡到万兆环境，集群内的网络IO不是问题。

2. 新Shuffle为什么只有Indy类别成绩，会参加Daytona类别的比赛吗？
参加Benchmark比赛时由于新Shuffle还处在起步阶段，存在一些通用性和稳定性问题，一些优化工作也还没有完成，预期很快会在要求更为严格的Daytona类别的比赛中取得理想的成绩。

3. 新Shuffle的稳定性如何？
现在新Shuffle已经经过百度内部试运行，上线了多个集群，稳定性问题已经得到验证。

4. 新Shuffle是否考虑开源的问题？
考虑到百度使用C/C++的工程师很多，目前新Shuffle采用C++开发；未来，我们会实现一套Java版本的新Shuffle来开源。

详情传送门：Spark 在百度开放云BMR上的实践常见问题

...全文