基于spark实现大表join效率优化效果好吗？

treetor 2016-04-20 10:55:37

基于spark实现大表join效率优化效果好吗？能实现毫秒级join吗

...全文

780 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

chyanch 2016-04-25

打赏
举报

回复

Spark 大表join效率取决于数据条数，记录大小，数据是否排过序等因素影响。实际操作过的3张5百万大表join在60s吧，仅供参考。

Spark Sql DataFrame DataSet: 1.减少小文件使用coalesce()算子,缩小分区插入hive表 write.mode 选择插入模式，inserinto 兼容hive 根据字段顺序去匹配hive表。saveastable 不兼容hive 根据字段名字进行匹配 2.windows下local模式访问集群资源 core-site.xml, hdfs-site.xml ,hive-site.xml,yarn-site.xml放到resource源码包下 HA支持： val spar

对于Spark来说有3中Join的实现，每种Join对应着不同的应用场景： Broadcast Hash Join ：适合一张较小的表和一张大表进行join Shuffle Hash Join : 适合一张小表和一张大表进行join，或者是两张小表之间的join Sort Merge Join ：适合两张较大的表之间进行join 前两者都基于的是Hash Join，只不过在hash join之前需要先shuffle还是先broadcast。下面将详细的解释一下这三种不同的join的具体原理。 Has

优化的三种方式 1、小表 join 大表在小表和大表进行join时，将小表放在前边，效率会高。hive会将小表进行缓存。 2、mapjoin 使用mapjoin将小表放入内存，在map端和大表逐一匹配。从而省去reduce。样例： SELECT /*+MAPJOIN(b)*/ --将小表放入内存 a.a1, a.a2, b.b2 FROM tablea a --大表 JOIN tableb b --小表 ON a.a1 = b.b1 这里会有个问题，大表left join

研究背景在Spark大数据平台中，等值连接作为其数据分析以及处理中最常用、代价最高的操作之一，对于Spark大数据处理平台的数据处理及分析性能有着很大影响。在Spark系统上目前被广泛采用的Broadcast join和Hash join在对包含较少数据量的数据表进行操作时，有良好的性能，但事实上，在如今大数据时代，数据量往往都是非常大的，且呈现数量级的增长，Spark提供的等值连接方法在大...

Spark job 调优

742

社区成员

901

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章