hive超大分区表关联小表优化问题

wildgun 2019-11-26 09:54:33

我有一张超大表数据量20多个亿:tb_a按照日期date_dt进行了动态分区,一张小表tb_dt用于存储需要从大表取数的日期
比如小表存了三条记录表示需要从大表取三天的数据，也就是三个分区的数据
2019-01-01
2019-01-05
2019-01-10
select /*+MAPJOIN(t1)*/
*
from tb_a t0
left semi join tb_b t1
on t0.date_dt=t1.date_dt
这样写大表会进行全表扫描
有什么方法可以优化的吗

...全文

467 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

单手打字 2019-12-04

打赏
举报

回复

可以这样select * from tb_a t0 where t0.data_dt in (select data_dt from tb_b);如果还想要tb_b表的全部字段，就再做一次join

主要介绍了hive开发过程中常见的性能问题及优化方法：数据倾斜： 1)group by 数据倾斜 2)join 数据倾斜 3)reduce数过少 4)大小表关联动态分区并行小文件过多等等

我们生产常有将实时数据流与 Hive 维表 join 来丰富数据的需求，其中 Hive 表是分区表，业务上需要关联上 Hive 最新分区的数据。上周 Flink 1.12 发布了，刚好支撑了这种业务场景，我也将 1.12 版本部署后做了一个线上需求并上线。对比之前生产环境中实现方案，最新分区直接作为时态表提升了很多开发效率，在这里做一些小的分享。 Flink 1.12 前关联 Hive 最新分区方案 Flink 1.12 关联 Hive 最新分区表 关联Hive最新分区 Demo Flink SQL

一、小表、大表 Join 将 key 相对分散，并且数据量小的表放在 join 的左边，这样可以有效减少内存溢出错误发生的几率；再进一步，可以使用 map join 让小的维度表（1000 条以下的记录条数）先进内存。在 map 端完成 reduce。新版的 hive 已经对小表 JOIN 大表和大表 JOIN 小表进行了优化。小表放在左边和右边已经没有明显区别。例： 1、创建大...

Hive将表划分为分区(partition)表和分桶(bucket)表。分区表在加载数据的时候可以指定加载某一部分数据，并不是全量的数据，可以让数据的部分查询变得更快。分桶表通常是在原始数据中加入一些额外的结构，这些结构可以用于高效的查询，例如，基于ID的分桶可以使得用户的查询非常的块。分区表与分桶表是可以一起使用的。

经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快，提到的原因都是说因为小表可以先放到内存中，然后大表的每条记录再去内存中检测，最终完成关联查询。这样的原因看似合理，但是仔细推敲，又站不住脚跟。多小的表算小表？如果所谓的小表在内存中放不下怎么办？我用2个只有几条记录的表做关联查询，这应该算是小表了，在查看reduce的执行日志时依然是有写磁盘的操作的。实际上reduce在接收全部map的输出后一定会有一个排序所有键值对并合并写入磁盘

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章