基于spark实现大表join效率优化效果好吗？能实现毫秒级join吗

一路向上upup 2016-09-13 04:55:26

基于spark实现大表join效率优化效果好吗？能实现毫秒级join吗 ? 谢谢解答！

...全文

2394 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

oO眸眸Oo 2016-11-17

打赏
举报

回复

目前来说，是不太可能，将来技术设备更新，有可能。

LinkSe7en 2016-09-14

打赏
举报

回复

如果join的条件是xxx=yyy，则非常快，具体视乎集群规模和数据规模；如果是表达式或不等式，相当于Mysql的全表扫描，而且会有节点间数据交换、调度延迟等因素，相对比较慢

你是否曾经面对多个优化算法不知所措？或者无法自由选择学习框架？又或许因为Caffe,Tensorflow, Theano, Torch的诸多参数设置而烦恼？或简单的认为只要有大数据就可以训练计算机了？如果你不懂复杂的数学、统计学理论，还能做训练吗？...... 带着十万个为什么，让我们与深度学习技术讲师一起，了解基于Spark的分布式数据探索、机器学习/深度学习和认知计算。

本文分析Spark-1.6.2中大小表join时的broadcast机制。分析源码执行逻辑，并且对源码进行一定的调整。

1 spark优化 Spark性能优化的第一步就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优，需要了解以下一些Spark基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中，时时刻刻都应该注意以下原则，并将这些原则根据具体的业务以及实际的应用场景，灵活地运用到自己的Spark作业中。 1.1 资源参数调优 num-executors：设置Spark作业总共要用多少个Executor进程来执行, 默认为1，官方建议2-5个。每个Spa

非常高兴可以参与本次的开源大数据技术 Meetup ，今天跟大家分享的主题是 Apache Doris 的 Join 实现和调优，内容主要分为三块：第一部分会先给不太了解 Apache Doris 的小伙伴们简单介绍一下 Doris，第二部分会介绍 Doris 的整个 Join 实现的机制，第三部分是我们基于 Doris 这些 Join 实现机制将怎样展开 Join 的调优工作。分享目录**Doris 简介 **首先简单介绍一下 Doris 。Doris 是百度自主研发并开源的一个基于 MPP （大规模并行

引用地址:https://blog.csdn.net/qq_30349961/article/details/82662550 http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html 经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录...

742

社区成员

901

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章