HIVE中，多表分组统计UNION后插入汇总表，如何优化

eksmile 2016-04-18 04:23:19

insert into table 汇总表

select * from(

select ip, count(*) from A where dayid='**' group by ip

union all

select ip, count(*) from B where dayid='**' group by ip

union all

......

union all

select ip, count(*) from Z where dayid='**' group by ip

) as tmp;

HIVE里，请问像这样的语句要怎么优化？

里面UNION ALL的各项的源表都不相同的。
我觉得应该是可以并行执行的。但是，我设置并行不管用。
虽然一开始同时启动了8个JOB，但是，看日志，还是一个接一个的跑。并没用同时运行那8个。
set hive.exec.parallel=true;
set hive.exec.parallel.thread.number=8;
(我试了两种设置方式：执行INSERT 语句之前，先执行这两行脚本。以及，修改HIVE的hive-site.xml配置)

设置JVM重用也没用。
set Mapred.Job.reuse.jvm.num.tasks = 5;

求指教。

PS：其实每个表的文件很小。我也不懂为什么非要上HADOOP。。。

（系统的推荐邀请，冒昧打扰）

...全文

486 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

hive知识点汇总

本节基本涵盖了Hive日常使用的所有SQL，因为SQL太多，所以将SQL进行了如下分类：一、DDL语句（数据定义语句）：对数据库的操作：包含创建、修改数据库对数据表的操作：分为内部表及外部表，分区表和分桶表二、DQL...

说明：hive的表存放位置模式是由hive-site.xml当中的一个属性指定的 :hive.metastore.warehouse.dir 创建数据库并指定hdfs存储位置 : create database myhive2 location '/myhive2'; • 修改数据库: alter database...

1.hive执行顺序 hive语句和mysql都可以通过 explain+代码查看执行计划，这样就可以查看执行顺序 **SQL语句书写顺序：** select … from … where … group by … having … order by … **SQL语句执行顺序：** from...

1、计算数据优化计算数据优化主要有两种思路，一种是减少处理数据量；...可以修改读取数据的表的任务，最后插入数据时按照均衡的key值重新分布。也就是在最后加上distribute by *** 如果Mapper的任...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章