基于spark实现大表join效率优化效果好吗？

treetor 2016-04-20 10:55:37

基于spark实现大表join效率优化效果好吗？能实现毫秒级join吗

...全文

782 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

chyanch 2016-04-25

打赏
举报

回复

Spark 大表join效率取决于数据条数，记录大小，数据是否排过序等因素影响。实际操作过的3张5百万大表join在60s吧，仅供参考。

你是否曾经面对多个优化算法不知所措？或者无法自由选择学习框架？又或许因为Caffe,Tensorflow, Theano, Torch的诸多参数设置而烦恼？或简单的认为只要有大数据就可以训练计算机了？如果你不懂复杂的数学、统计学理论，还能做训练吗？...... 带着十万个为什么，让我们与深度学习技术讲师一起，了解基于Spark的分布式数据探索、机器学习/深度学习和认知计算。

Spark Sql DataFrame DataSet: 1.减少小文件使用coalesce()算子,缩小分区插入hive表 write.mode 选择插入模式，inserinto 兼容hive 根据字段顺序去匹配hive表。saveastable 不兼容hive 根据字段名字进行匹配 2....

对于Spark来说有3中Join的实现，每种Join对应着不同的应用场景： Broadcast Hash Join ：适合一张较小的表和一张大表进行join Shuffle Hash Join : 适合一张小表和一张大表进行join，或者是两张小表之间的join ...

在小表和大表进行join时，将小表放在前边，效率会高。hive会将小表进行缓存。 2、mapjoin 使用mapjoin将小表放入内存，在map端和大表逐一匹配。从而省去reduce。样例： SELECT /*+MAPJOIN(b)*/ --将小表放入...

在Spark系统上目前被广泛采用的Broadcast join和Hash join在对包含较少数据量的数据表进行操作时，有良好的性能，但事实上，在如今大数据时代，数据量往往都是非常大的，且呈现数量级的增长，Spark提供的等值连接...

742

社区成员

901

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章