求助：HIVE中一张5亿的表关联3张都只有100条数据的表，怎样效率更高？谢谢

oO眸眸Oo 2016-11-17 05:41:09

求助：HIVE中一张5亿的表关联3张都只有100条数据的表，怎样效率更高？谢谢

表 T1(a int,b varchar(100),c int,d int) 数据量5亿

表T2(a int,b varchar(100)) 数据量100条

表T3(a int,b varchar(100)) 数据量100条

表T4(a int,b varchar(100)) 数据量1000条

select
T1.a,
T1.b,
T2.b,
T3.b,
T4.b
from T1
left join T2 on T1.a=t2.a
left join T3 ON T1.c=t3.a
left join T4 ON T1.c=t4.a
需求如上的语句，直接这样跑的话，很费时间。

谢谢

...全文

877 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

csdn1115 2016-11-26

打赏
举报

回复

small drive big

huyuleizj 2016-11-21

打赏
举报

回复

1，把大表放到连接顺序的最后，这样hive会把前边的表数据放进缓存，再和大表关键，速度会加快。 2，可以把小表先合并为一个表。

java8964 2016-11-18

打赏
举报

回复

MapJoin

LinkSe7en 2016-11-17

打赏
举报

回复

大表分区分桶

环境：公司决定使用宽表，将10个相关的大表进行全量关联（1个上亿级别的表，5个上千万的表，剩下的表都不到百万的表）花了两天的时间研究，测试例如： a~g这几个表中，a表为上亿级别的表，5个上千万的表，...

Hive删除内部表时，内部表的元数据和数据会一起被删除，同时对于一些hive操作不适应于外部表，比如单个查询语句创建表并向表中插入数据。 Hive删除外部表时，不删除数据。这样外部表相对来说更加安全些，数据组织也...

1、关联查询时，有一个较小的表的key比较集中 key的分布不均就导致在分区时，某一个或几个分区的数量过多 2、使用group by但没有用聚合函数，导致维度过小，某值的数量过多那么我们需要在使用group by时注意一定要...

hive join优化一：大表关联小表两个table的join的时候，如果单纯的使用MR的话会消耗大量的内存，浪费磁盘的IO，大幅度的影响性能。在大小表join的时候，即一个比较小的表和一个较大的表joining，如果使用mapjoin...

A表：单副本14.9G,1002354875条数据 B表：单副本1.5G，40102307条数据两个表通过partition_path字符串去full outer join关联，没有优化前执行要88分钟第一种优化：在sql结尾使用distribute by rand() ，...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章