hive超大分区表关联小表优化问题
我有一张超大表数据量20多个亿:tb_a按照日期date_dt进行了动态分区,一张小表tb_dt用于存储需要从大表取数的日期
比如小表存了三条记录表示需要从大表取三天的数据,也就是三个分区的数据
2019-01-01
2019-01-05
2019-01-10
select /*+MAPJOIN(t1)*/
*
from tb_a t0
left semi join tb_b t1
on t0.date_dt=t1.date_dt
这样写大表会进行全表扫描
有什么方法可以优化的吗