hive on spark查询问题

java_emmm 2018-11-22 12:37:26

问题大概如下
配置了一个hadoop集群，配置为8虚拟CPU，16g内存，100g物理磁盘。
集群已近导入了70G的数据，现在需要进行一个sql查询，
SELECT loid AS userid,count(1) AS count_all,count(if(PONRx > 0,1,null)) AS count_notnull_pon_down,count(if(PONTx > 0,1,null)) AS count_notnull_pon_up,AVG(PONRx) AS pon_speed_avg_down,MAX(PONRx) AS pon_speed_max_down,AVG(PONTx) AS pon_speed_avg_up,MAX(PONTx) AS pon_speed_max_up,count(IF(lan1Rx > 0, 1, NULL)) AS count_notnull_lan1_down,count(IF(lan1Tx > 0, 1, NULL)) AS count_notnull_lan1_up,AVG(lan1Rx) AS lan2_speed_avg_down,MAX(lan1Rx) AS lan2_speed_max_down,AVG(lan1Tx) AS lan2_speed_avg_up,MAX(lan1Tx) AS lan2_speed_max_up,count(IF(lan2Rx > 0, 1, NULL)) AS count_notnull_lan2_down,count(IF(lan2Tx > 0, 1, NULL)) AS count_notnull_lan2_up,AVG(lan2Rx) AS lan2_speed_avg_down,MAX(lan2Rx) AS lan2_speed_max_down,AVG(lan2Tx) AS lan2_speed_avg_up,MAX(lan2Tx) AS lan2_speed_max_up,sum(PONRx) AS sum_stat_pon_down,sum(PONTx) AS sum_stat_pon_up,sum(lan1Rx) AS sum_stat_lan1_down,sum(lan1Tx) AS sum_stat_lan1_up,sum(lan2Rx) AS sum_stat_lan2_down,sum(lan2Tx) AS sum_stat_lan2_up,count(IF(PONRx > 1, 1, NULL)) AS count_speed_pon_1M,count(IF(PONRx > 10, 1, NULL)) AS count_speed_pon_10M,count(IF(PONRx > 50, 1, NULL)) AS count_speed_pon_50M,count(IF(lan1Rx > 1, 1, NULL)) AS count_speed_lan1_1M,count(IF(lan1Rx > 10, 1, NULL)) AS count_speed_lan1_10M,count(IF(lan1Rx > 50, 1, NULL)) AS count_speed_lan1_50M,count(IF(lan2Rx > 4, 1, NULL)) AS count_speed_lan1_4M FROM test.flow GROUP BY loid;
在主机上用hive on spark 进行查询，但是每到查询快完毕时，就会报错，
现在想问问是需要提高集群配置或者新增分机，还是我的配置文件上有问题

...全文

383 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

人生偌只如初见 2018-11-27

打赏
举报

回复

报错的日志确认问题

4qw 2018-11-23

打赏
举报

回复

先拿出一小部分数据,验证下你的SQL的写法是否有问题;
发现有部分别名存在重复问题,自己去校验,以及验证下用到的SQL语法是否正常或者是否支持,
写一些简单的SQL验证下语法情况

Hive on Spark VS Spark on Hive 两者概述 Hive on Spark Hive on Spark是由Cloudera发起，由Intel、MapR等公司共同参与的开源项目，其目的是把Spark作为Hive的一个计算引擎，将Hive的查询作为Spark的任务提交到Spark集群上进行计算。通过该项目，可以提高Hive查询的性能，同时为已经部署了Hive或者Spark的用户提供了更加灵活的选择，从而进一步提高Hive和Spark的普及率。 Hive on spark大体与SparkS

Hive on Spark配置 Hive引擎默认的是MapReduce，就是没执行一个Hive语句，其实都是运行了一个MR程序，都知道的，MR虽好，但是慢呢。所以在时代的驱使下，就出现了把Hive的引擎更换的需要，通常Hive的引擎还有tez、Spark。我们经常听到Hive on Spark和Spark on Hive，不明所以的小伙伴还会以为这两个是倒装句，其实不然，Hive on Spark 和 Spark on Hive有着很大的区别 Hive on Spark：直译就是把Hive 放到 Spark

1. Hive引擎简介 Hive引擎包括：默认MR、tez、spark Hive on Spark：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。 Spark on Hive : Hive只作为存储元数据，Spark负责SQL解析优化，语法是Spark SQL语法，Spark负责采用RDD执行。 2. Hive on Spark配置 1）兼容性说明注意：官网下载的Hive3.1.2和Spark3.0.0默认是不兼容的。因为Hive

一．Hive on Spark的定义 Hive on Spark是由Cloudera发起，由Intel、MapR等公司共同参与的开源项目，其目的是把Spark作为Hive的一个计算引擎，将Hive的查询作为Spark的任务提交到Spark集群上进行计算。通过该项目，可以提高Hive查询的性能，同时为已经部署了Hive或者Spark的用户提供了更加灵活的选择，从而进一步提高Hive和Spark的普及率。二．把Spark作为新的计算引擎供给Hive使用。在Hive中，一条SQL语句从用户提交到计算并返回结

hive on spark 性能远比hive on mr 要好，而且提供了一样的功能。用户的sql无需修改就可以直接运行于hive on spark。 udf函数也是全部支持。本文主要是想讲hive on spark 在运行于yarn模式的情况下如何调优。下文举例讲解的yarn节点机器配置，假设有32核，120GB内存。 1.yarn配置 yarn.nodemanager.resource.cpu-vcores和yarn.nodemanager.resource.memory-mb,这两个参数决定这集.

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章