求助:HIVE中一张5亿的表关联3张都只有100条数据的表,怎样效率更高?谢谢

oO眸眸Oo 2016-11-17 05:41:09
求助:HIVE中一张5亿的表关联3张都只有100条数据的表,怎样效率更高?谢谢

表 T1(a int,b varchar(100),c int,d int) 数据量5亿

表T2(a int,b varchar(100)) 数据量100条

表T3(a int,b varchar(100)) 数据量100条

表T4(a int,b varchar(100)) 数据量1000条

select
T1.a,
T1.b,
T2.b,
T3.b,
T4.b
from T1
left join T2 on T1.a=t2.a
left join T3 ON T1.c=t3.a
left join T4 ON T1.c=t4.a
需求如上的语句,直接这样跑的话,很费时间。

谢谢



...全文
877 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
csdn1115 2016-11-26
  • 打赏
  • 举报
回复
small drive big
huyuleizj 2016-11-21
  • 打赏
  • 举报
回复
1,把大表放到连接顺序的最后,这样hive会把前边的表数据放进缓存,再和大表关键,速度会加快。 2,可以把小表先合并为一个表。
java8964 2016-11-18
  • 打赏
  • 举报
回复
MapJoin
LinkSe7en 2016-11-17
  • 打赏
  • 举报
回复
大表分区分桶

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧