Spark SQL 1.2、Tachyon解析+百度BMR数据分析平台及NewShuffle应用实践

仲浩 2015-01-22 04:56:50
2015年1月10日,一场基于Spark的高性能应用盛宴由Databricks软件工程师连城、百度高级工程师甄鹏、百度架构师孙垚光、百度美国研发中心高级架构师刘少山四位专家联手打造。其中,Databircks是Spark的创建公司,而百度则是国内规模最大的Spark集群的运营者(基于此前国内各大Spark用户公布的数据)——实际生产环境,最大单集群规模1300台(包含数万核心和上百TB内存),公司内部同时还运行着大量的小型Spark集群。

内容包括:

连城——Spark SQL 1.2的提升和新特性
甄鹏——Spark在百度开放云BMR中的实战分享
孙垚光——百度高性能通用Shuffle服务
刘少山——Fast big data analytics with Spark on Tachyon

详情传送门:Spark技术解析及其在百度最大千台单集群的应用实践

QA环节(节选)

Shuffle相关技术问题

1. 新Shuffle是否会增加网络IO?
新Shuffle的确会增加一些网络IO,但是百度内部集群已经逐渐过渡到万兆环境,集群内的网络IO不是问题。

2. 新Shuffle为什么只有Indy类别成绩,会参加Daytona类别的比赛吗?
参加Benchmark比赛时由于新Shuffle还处在起步阶段,存在一些通用性和稳定性问题,一些优化工作也还没有完成,预期很快会在要求更为严格的Daytona类别的比赛中取得理想的成绩。

3. 新Shuffle的稳定性如何?
现在新Shuffle已经经过百度内部试运行,上线了多个集群,稳定性问题已经得到验证。

4. 新Shuffle是否考虑开源的问题?
考虑到百度使用C/C++的工程师很多,目前新Shuffle采用C++开发;未来,我们会实现一套Java版本的新Shuffle来开源。

详情传送门:Spark 在百度开放云BMR上的实践常见问题
...全文
988 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
lcyGo 2016-04-14
  • 打赏
  • 举报
回复
支持~~~~~
山之沉稳 2015-07-13
  • 打赏
  • 举报
回复
顶一个,希望spark越来越健全
yowen110 2015-06-30
  • 打赏
  • 举报
回复
支持~~~~~
styhungerjob 2015-06-27
  • 打赏
  • 举报
回复
版本,能推荐几本关于OpenStark 系统学习的书籍吗?
Haison 2015-02-25
  • 打赏
  • 举报
回复
请问有PPT或者视频可以下载吗?
然月枕流君 2015-01-28
  • 打赏
  • 举报
回复
不得不支持一下~~~~
  • 打赏
  • 举报
回复

1,258

社区成员

发帖
与我相关
我的任务
社区描述
Spark由Scala写成,是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于MapReduce算法实现的分布式计算。
社区管理员
  • Spark
  • shiter
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧