关于HIVE查询的慢问题 [问题点数:20分]

Bbs1
本版专家分:0
结帖率 50%
Bbs1
本版专家分:0
Bbs1
本版专家分:0
Bbs1
本版专家分:0
Bbs1
本版专家分:0
最容易理解的Hive跟mysql比较
1、<em>查询</em>语言 <em>hive</em>是类是sql的<em>查询</em>语言hql,mysql是sql<em>查询</em>语言 2、数据存储位置 <em>hive</em>存储在hdfs上 mysql存储在本地磁盘上 3、数据更新 <em>hive</em>不支持插入跟更新操作,mysql都可以 4、索引 <em>hive</em>不存在索引 ,mysql有索引 5、执行 <em>hive</em>大多数<em>查询</em>通过mapreduce,mysql是自己的执行引擎 6、执行延迟 <em>hive</em>没有索引,查...
hive常见优化问题汇总
http://daizj.iteye.com/blog/2289981 一、总体思想 1、让服务器尽可能的多做事情,榨干服务器资源,以最高系统吞吐量为目标 再好的硬件没有充分利用起来,都是白扯淡。 比如: (1)  启动一次job尽可能的多做事情,一个job能完成的事情,不要两个job来做  通常来说前面的任务启动可以稍带一起做的事情就一起做了,以便后续的多个任务重用,与此紧密相连的是...
hive 很慢解决办法
<em>hive</em> 很慢:运行一下一下语句:set mapred.child.java.opts=-Xmx1024m;set mapreduce.map.java.opts=-Xmx1310m;set yarn.app.mapreduce.am.command-opts=-Xmx2457m;set mapreduce.reduce.java.opts=-Xmx2620m;...
Hive 子查询特别分析
Hive只支持在FROM子句中使用子<em>查询</em>,子<em>查询</em>必须有名字,并且列必须唯一:SELECT ... FROM(subquery) name ... 确认下是否一定要求列必须唯一?  建表语句: create table  tb_in_base (    id  bigint,    devid bigint,     devname string ) partitio
用mapreduce程序将hive写数据到hbase慢的解决办法
项目中可能会有将<em>hive</em>的数据同步到hbase的需求,但是有时mapreduce程序写数据会非常慢,也有可能会出现数据倾斜<em>问题</em>。这时就要对mapreduce程序进行优化了。        首先确定调大reduce个数,比如从5个调大到10个,如果还不能有效的加快速度。就需要在mapreduce程序中将<em>hive</em>中大量的空过滤掉,这部分特别耗资源,也会引起数据倾斜。这部分空到hbase中也没用,过滤
Hive性能优化(全面)解决数据倾斜等问题
Hive性能优化(全面) 1.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些<em>问题</em>? 数据量大不是<em>问题</em>,数据倾斜是个<em>问题</em>。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数...
问题解决:Hive中双count(distinct)过慢的问题
这里说的双count(distinct)是指类似下面的语句 select day,count(distinct session_id),count(distinct user_id) from log a group by day; 如果要执行这样的语句,前提必须设置参数:set <em>hive</em>.groupby.skewindata=true; 我们可以用“空间换时间”的思路解
hive MV速度慢的问题
 事件: 执行一个HIVE<em>查询</em>,在执行到 <em>hive</em> 的 moving data 过程就卡住了,早上来的时候看执行还在那个位置。      截屏如下:   处理方法:在<em>hive</em>-site.xml中添加以下参数。 &amp;lt;property&amp;gt;              &amp;lt;name&amp;gt;<em>hive</em>.exec.stagingdir&amp;lt;/name&amp;gt;          ...
Hive 使用TEZ引擎导致连接Hive SHELL慢的问题
在使用HDP Hadoop版本时,Ambari界面允许选择Hive执行引擎是MapReduce还是TEZ,如下图所示 使用TEZ作为Hive执行引擎来替代MapReduce,可以在很多场景上实现更好的效率提高,然后使用TEZ作为默认引擎也会导致一些<em>问题</em>。最近就碰到这样的场景,客户使用TEZ作为执行引擎,在计算过程中确实比使用默认的MapReduce快很多,但遇到的一个<em>问题</em>是:每次总要花10~...
kettle hive 的一些数据问题
1,日期导入为null的情况,在建<em>hive</em>表时将date类型变为timestamp类型2,分区表建立时,一定要指定分隔符,和普通建表一样吗,如下列代码
Hive Load等问题
以下内容为 qq群整理内容,如有侵权,请联系我,会立刻删除。 <em>hive</em> load数据的效率比较低,一个 master三个node load 一个G的数据需要两分钟,10G需要20多分钟。 可选的解决方案; 1.直接导入 2.使用外表 3.先导入HDSF系统,再导入表 使用外表的方式,一般是先导入HDFS然后再和外表关联 直接导入是先建表,再导入数据到
再一次利用with as 优化SQL
上海的一个哥们问我有个SQL跑了4个小时都没跑完,实在受不了了,找我优化一下。我确实挺佩服他的,要是我遇到跑了几分钟的,就受不了了。 SQL语句和执行计划如下: --sql id:1qbbw3th4x8yc SELECT "VOUCHER".FID "ID", "ENTRIES".FID "ENTRIES.ID", "ENTRIES".FEntryD
我的 Hive 为什么跑不起来/跑得慢?看看是不是少了这几行代码?
《饮食男女》开头说:“人生不能像做菜,把所有的料都准备好了才下锅。” 但做大数据挖掘不一样,MapReduce 不同于人生,一定要把准备工作做好了,才能顺利运行后面的步骤。如果你的 HiveQL 代码没毛病,却一运行就出现 Fail 提示,可以看看,是不是少了下面哪项准备工作? 指定队列 set mapred.job.queue.name=queue01; //自己指定一个队列 在 H...
Hive MetaStore简单剖析解析,持续整理中...
Hive MetaStore 包括 DBS,version,TBLS等的详细分析
hive简单查询优化总结
          <em>hive</em>作为hadoop系列的计算模型,在公司的数据清洗和报表开发广泛使用,合理的优化自己的语句结构可以节省计算时间,优化集群的计算资源,下面总结下日常工作中自己碰到的一些<em>问题</em>和别人总结的一些方法。   我们先了解下关系型数据库sql的执行顺序,<em>hive</em>大致相同 然后大致了解下<em>hive</em>的架构: 具体策略: 1、尽早的过滤数据,<em>hive</em>同样会先执行join,再执行w...
Hive优化--定位调优指导
1.1.    日志搜集 1.1.1.   HiveServer日志获取 Hive调优需要看HiveServer的运行日志及GC日志。 HiveServer日志路径为:HiveServer节点的/var/log/Bigdata/<em>hive</em>/<em>hive</em>server/。 文件名 日志内容 <em>hive</em>.log HiveServer运行日志
hive查询sql效率优化
今天写了个sql跑了好久,老大过来一看指点下,多用子<em>查询</em>,多用where,然后在join, 提高十多倍,神奇了。想了想,还是老大经验丰富。 如果先join,就全表扫描,然后最后where最后筛选,比较耗时。 如果用子<em>查询</em>,就可以利用where过滤不相关的字段,不但增加了map 数量,还减少了数据量。 以下是我的sql 对比: SELECT from_unixtime(cast(a.t...
Hive SQL调优总结
Hive SQL调优总结 本文参考链接(总结的很棒很全面) 这里只是总结了一下HQL上面的一些优化点,并不考虑Hadoop层面的参数、配置优化 目录 Hive SQL调优总结 目录 使用分区剪裁、列剪裁 少用count(distinct) 多对多的关联 合理使用MapJoin 合理使用Union ALL 并行执行job 使用本地MR 合理使用动态分区 避免数据倾斜 控制Map数...
impala查询hbase数据效率问题
之前都是用impala查<em>hive</em>共享的数据,今天测试查了一下hbase的数据,方法很简单,就是<em>hive</em>里建hbase的外部表,用impala<em>查询</em><em>hive</em>外部表的数据,发现一个<em>问题</em>,相同数据的情况下,<em>查询</em>hbase表数据和<em>hive</em>差别太大,如下图: 同样的数据量: 1、<em>hive</em>内部表数据 2、<em>hive</em>外部表hbase数据 速度根本不是一个数量级的!这一块儿如果真要应用impala查hbase
Hive JDBC连接Tez(AM)容器长期不释放问题的解决方法
Hive JDBC连接Tez(AM)容器长期不释放<em>问题</em>的解决方法 <em>问题</em> 有这样一个<em>问题</em>是很常见的:如果我们的Hive使用默认使用Tez作为执行引擎,当我们使用IDE通过Hive JDBC连接时,会出现在一个很“有趣”的想象:即如果我们不断开这个JDBC连接,则在Yarn上会持续有有一个Tez的AM容器持续存在,只有当端开JDBC连接时,这个容器才会被释放。<em>关于</em>Tez在Yarn的资源布局,可参考这篇...
Presto性能优化
  <em>查询</em>速度慢, 如何优化? 解决方法1: 避免单节点处理 虽然Presto是分布式<em>查询</em>引擎, 但是一些操作是必须在单节点中处理的. 例如: count(distinct x) 考虑使用approx_distinct(x)代替 但是需要注意这个函数有个大约在2.3%的标准误差, 如果需要精确统计的情况, 请绕道. UNION UNION有个功能是: 如果两条记录一...
Hive join的三种优化方式
<em>hive</em>在实际的应用过程中,大部份分情况都会涉及到不同的表格的连接,例如在进行两个table的join的时候,利用MR的思想会消耗大量的内存,良妃磁盘的IO,大幅度的影响性能,因为shuffle真的好令人担心啊,总之,就是各种<em>问题</em>都是由他产生的。下面介绍一下涉及<em>hive</em>在join的时候的优化方式。        第一:在map端产生join         mapJoin的主要意思就是,当链接的两...
hive表关联查询,什么情况下会发生数据倾斜,应该如何解决?
** <em>hive</em>表关联<em>查询</em>,什么情况下会发生数据倾斜,应该如何解决? ** 倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特性、建表时考虑不周等原因造成的reduce 上的数据量差异过大。 解决方案: (1)参数调节: <em>hive</em>.map.aggr = true <em>hive</em>.groupby.skewindata=true 有数据倾斜的时候进行负载...
SQL中EXISTS与IN的效率问题
一起学习一下; 有两个简单例子,以说明 “exists”和“in”的效率<em>问题</em> 1) select * from T1 where exists(select 1 from T2 where T1.a=T2.a) ;     T1数据量小而T2数据量非常大时,T1 2) select * from T1 where T1.a in (select T2.a from T2) ;  
如何解决spark写hive慢的问题
在使用spark写<em>hive</em>过程中,发现最耗时的部分是将产生的结果写入<em>hive</em>,举个例子,对3g*1G表的join来讲,将结果使用以下方式直接写入<em>hive</em>表需要超过半小时的时间: dataframe.registerTempTable("result") sql(s"""INSERT OVERWRITE Table $outputTable PARTITION (dt ='$output
Hive查询HBase调用MapReduce性能优化
折腾了很久,被领导天天督促&amp;amp;指点,算是有个最基本的性能优化。 1. 背景介绍: Hive使用<em>hive</em>-hbase-handler建立HBase external table。在<em>hive</em><em>查询</em>包含count(*)、join、以及Predicate Pushdown等操作时,会调用MapReduce进行处理。本文旨在<em>查询</em>性能方面的优化,算是对工作中的一点记录。 优化主要分为两个方面: 1)...
Hadoop和HIVE面试题
3套面试题分享给大家
【图文详细 】Hive 优化策略 之 Group By 优化
-
学会使用临时表优化,切记不要乱用临时表(记录一)
今天检查满<em>查询</em>日志发现有个存储过程<em>查询</em>可以达17S  而且是订单列表<em>查询</em>,这个当然不能忍了,必须优化,接下来就是查找原因优化过程。过程使用动态语句,首先使用满<em>查询</em>的语句条件提取出来静态语句单独分析: 提取结果如下: table1 表数据100W+  table3表数据200W+  SELECT b.*, A.value1, A.value2, A.value
HBase相对Hive查询速度快的对比
首先Hive的底层是先是MR,是属于批处理处理时间相对较长,不属于实时读写。在其架构上HBase和Hive有很大的区别.架构介绍:Hive架构 –  (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至HiveServer。在启动 Client模式的时候,需要指出Hive Serv...
Hive学习之连接查询优化(二)
星型连接增强功能 Hive-0.11.0中优化器的增强功能专注于星型模式配置中连接的有效处理。星型模式连接的初始化工作是受限制的,在该模式中所有维度表在过滤和投影后在同一时间装入内存。一部分维度表装入内存的场景还未实现。连接<em>查询</em>优化可以被分为三部分: ·        当使用MAPJOIN时,在只有map的一个作业中执行操作符树中的map连接链。 ·        自动转换情况的扩展优化(在
Hive 层次查询
使用窗口函数:NTILE SELECT cookieid, createtime, pv, NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime) AS rn1,--分组内将数据分成2片 NTILE(3) OVER(PARTITION BY cookieid ORDER BY createtime) AS rn2, --分组内将
hive大数据数据倾斜原因与解决方案总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的<em>问题</em>,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的
HiveServer2的常见问题
在使用<em>hive</em>server2<em>查询</em>时(比如HUE,或者beeline连10000端口),会遇到这样的<em>问题</em>,where语句后如果使用了between,则between的两个值必须不一样,否则在<em>hive</em>server2中是查不出数据的,如果值一样的时候,直接用“=”。 例如: where date between 20160425 and 20160425 (<em>hive</em>server2 not OK,
ES往HIVE倒数据遇到时间格式问题
项目中遇到ES中的时间格式导入HIVE中,出现异常。 今天晚上有空研究了一下Elasticsearch-hadoop 源码,发现HiveValueReader用的是下面这个方法在解析时间字符串 DatatypeConverter.parseDateTime(value) 没有用到ES中我们指定的时间格式。 curl -XPUT 'localhost:9200/myind
Hive小文件问题的处理
Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量。但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小。而且这些表通常会按日期进行分区,随着时间的推移,HDFS的文件数目就会逐渐增加。 小文件带来的<em>问题</em> <em>关于</em>这个<em>问题</em>的阐述可以读一读Cloudera的这篇文章。简单来说,HDFS的文件元信息,包括位置
MySql 使用Find In Set查询很慢的解决办法
MySQL版本:5.7.19 1、需求场景 a) 表说明:商品分类关系表[t_class_product],[classId]&amp;nbsp; 分类主键,fn_class_childs(1) 返回所有子分类主键字符串; b) 功能说明: 依据 分类主键 <em>查询</em>该分类下的所有商品 2、<em>问题</em>定位 a) 之前操作:新上传几千个商品,...
Hive针对distinct的优化
<em>hive</em>针对count(distinct xxx)只产生一个reduce的优化。 0x00 造成的原因 由于使用了distinct,导致在map端的combine无法合并重复数据;对于这种count()全聚合操作时,即使设定了reduce task个数,set mapred.reduce.tasks=100;<em>hive</em>也只会启动一个reducer。这就造成了所有map端传来的数据都在一个task...
hive 数据倾斜实际问题中总结
1.数据倾斜原因 a.大表(2.8G)与小表关联(580K) b.大表(2.8G)与大表(3.0G)关联 首先谈论大表与小表的关联导致数据倾斜<em>问题</em>  实例如下: 大表数据格式: 小表数据格式: 关联语句 <em>hive</em>>select  *  from report_tour_spot_detail s join report_tour_msg_detail r  
Hive优化原则-策略-过程简述(持续更新完善中)
原则优化时把握整体,单个作业最优不如整体最优合理控制map reduce数量减少job数量(合并,大的分拆)合并小文件避免倾斜从表连接的角度优化:尽量使用内连接,因为内连接是两表都满足的行的组合,而外连接是以其中一个表的全部为基准从索引的角度优化:对那些常用的<em>查询</em>字段简历索引,这样<em>查询</em>时值进行索引扫描,不读取数据块可以在<em>查询</em>的过程中减少不必要的分区,字段好Hadoop的首要任务是增大每次任务所搭载...
mysql 垮服务、垮库查询 Federated引擎
mysql 垮库<em>查询</em> Federated引擎
系统优化之---分区表加速查询速度和删除速度
1、删除表里的数据最用下面语句 alter table t_name drop partition p_name; alter table t_name truncate partition p_name; delete 方式弊端:消耗大量的系统资源和无法释放空间 SQL> create user test identified by test account unlock; 
HIVE中使用full join联合查询使用coalesce()函数性能慢的解决方案
众所周知<em>hive</em>多表联查在实际生产中有很广泛的应用,使用较为快捷的当然是right join,left join;要避免的<em>查询</em>那就是inner join,当表很大的时候性能差异特别明显,但是还有一种用法就是full join,其实full join本身性能并不差,与right join,left join性能旗鼓相当,但仅仅使用full join出来的效果可能并不是自己想要的,效果如下: (举例...
Hive数据处理之报表累计
数据: +----------+---------+--------+ | username | month | salary | +----------+---------+--------+ | A | 2015-01 | 5 | | A | 2015-01 | 15 | | B | 2015-01 | 6 | | ...
Hive解决数据倾斜问题
什么是数据倾斜以及数据倾斜是怎么产生的? 简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。 举个 word count 的入门例子,它的map 阶段就是形成 (“aaa”,1)的形式,然后在reduce 阶段进行 value 相加,得出 “aaa” 出现的次数。若进行 word count 的文本有100G,其中 80G 全部是 “aaa” 剩下 2...
大数据hive面试题
1)Hive数据倾斜<em>问题</em>:倾斜原因: map输出数据按Key Hash分配到reduce中,由于key分布不均匀、或者业务数据本身的特点。】【等原因造成的reduce上的数据量差异过大。1.1)key分布不均匀1.2)业务数据本身的特性1.3)SQL语句造成数据倾斜解决方案:1&amp;gt;参数调节:    <em>hive</em>.map.aggr=true    <em>hive</em>.groupby.skewindata=tr...
【解决】hive跑批后presto未同步源数据的问题
【解决】<em>hive</em>跑批后presto未同步源数据的<em>问题</em>
Hive实现分页的方法
<em>hive</em>没有像MySQL那样的limit start,end那样的写法实现分页,所以需要使用别的方式来实现分页。 以下是我想到的两种方式: 一、借助唯一标识字段 如果分页的表有唯一标识的字段,可以通过这个字段来实现分页: 获取第一页数据: 注:同时需要记录这10条中最大的id为preId,作为下一页的条件。 select * from table order by id asc
hive使用动态分区问题3
最近在对数据流转的处理中,采用了很多动态分区的方式。 这次出现的<em>问题</em>是动态分区过程中,出现了分区为__HIVE_DEFAULT_PARTITION__ 的分区。经查证是因为分区字段为空或者''导致,所以分区的时候尽量选择有值的字段,如果碰到确实有字段为空,需要查明什么原因导致。
用row_number() over 优化分页查询
SELECT * FROM (  SELECT t.*,row_number() over(ORDER BY n_count DESC) r  FROM t_51xit t  ORDER BY t.n_count DESC  ) t  WHERE r BETWEEN 4 AND 6  当<em>查询</em>大表时,特别是当<em>查询</em>结果再写<em>查询</em>语句时,这种写法比下面这种快n倍  SELECT *
【性能优化】Hive优化
1.概述   继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的<em>问题</em>。下面开始本篇文章的优化介绍。 2.介绍   首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些<em>问题</em>? 数据量大不是<em>问题</em>,数据倾斜是个<em>问题</em>。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联
hive面试题
<em>hive</em> 内部表:加载数据到 <em>hive</em> 所在的 hdfs 目录,删除时,元数据和数据文件都删除     外部表:不加载数据到 <em>hive</em> 所在的 hdfs 目录,删除时,只删除表结构 (3)分区作用:防止数据倾斜 (4)UDF 函数:用户自定义的函数 (主要解决格式,计算<em>问题</em> ),需要继承 UDF 类 java 代码实现 class TestUDFHive extends UDF { pub...
分享一个JDBC查数据库出现的一个问题
<em>问题</em>详情,紧急需求临时搞了一个JDBC查Hive的引擎,根据获取的ResultSet在内存做计算,需要把ResultSet保留在内存一段时间,但是在后续对ResultSet的处理中出现了错误,错误详情: java.sql.SQLException: Error retrieving next row at org.apache.<em>hive</em>.jdbc.HiveQueryResultSet.nex...
hadoop问题总结:hive load写入数据很慢
1.hadoop fs -Ddfs.replication=1 -put file.txt /tmp/a.txt 这个速度很快. 因为一个副本是写本地硬盘的.硬盘排除了 2.网卡坏了 http://www.cnblogs.com/ggjucheng/arc<em>hive</em>/2012/04/17/2454590.html vmstat 1 检测内存,io,cpu set mapred...
hive有关的MapReduce大作业的性能问题(mapper数过多)
Hive<em>查询</em>涉及的小文件过多对MR作业的危害: Hadoop2.X中的小文件是指文件size小于HDFS的块(block)大小(例如128M)的文件。 一般来说MapTask(Map任务)每次处理一个块大小的input(默认使用FileInputFormat)。如果input到map任务的文件很小而且数量很多,那么每一个map task只是处理很小的input数据,会产生大量的map tasks,...
Hive面试题收集
Hive 原理 1. 用户提交<em>查询</em>等任务给Driver。 2. 编译器获得该用户的任务Plan。 3. 编译器Compiler根据用户任务去MetaStore中获取需要的Hive的元数据信息。 4. 编译器Compiler得到元数据信息,对任务进行编译,先将HiveQL转换为抽象语法树,然后将抽象语法树转换成<em>查询</em>块,将<em>查询</em>块转化为逻辑的<em>查询</em>计划,重写逻辑<em>查询</em>计划,将逻辑计划转化为物理的计划...
Hive中压缩使用详解与性能分析
     HIVE底层是hdfs和mapreduce实现存储和计算的。所以HIVE可以使用hadoop自带的InputFormat和Outputformat实现从不同的数据源读取文件和写出不同格式的文件到文件系统中。同理,HIVE也可以使用hadoop配置的压缩方法对中间结果或最终数据进行压缩。 1.什么是压缩及优劣?        <em>hive</em>中数据做压缩和解压缩跟windows下的数据压缩差不...
Hive中distinct和Group by效率对比及处理方式
Hive中distinct和group by效率对比,及处理方式
Hive常见问题及解决方案
Hive报错如下:Caused by: org.apache.hadoop.<em>hive</em>.ql.metadata.HiveFatalException: [Error 20004]: Fatal error occurred when node tried to create too many dynamic partitions. The maximum number of dynamic part...
Hive查询错误分析
<em>问题</em>描述:        Hive<em>查询</em>报错:FAILED: Execution Error, return code 2 from org.apache.hadoop.<em>hive</em>.ql.exec.mr.MapRedTask解决方案:    通过访问http:&amp;lt;hdfs主节点地址&amp;gt;:8088地址,查看对应任务的失败原因,错误原因显示:Application application_1529...
hive数仓的优化
(1)    资源分配 Mapredue的最小资源单元为container,container包括memory及vcores,所以直接与mapreduce挂钩的资源在yarn上是container,下面是具体的container及mapreduce资源占用设置: Container:(配置在hadoop的yarn-site.xml里配置) 配置文件        配置项名称        配置项...
hive读取es数据
转自:https://www.iteblog.com/arc<em>hive</em>s/1857.html  本文将介绍如何通过Hive来读取ElasticSearch中的数据,然后我们可以像操作其他正常Hive表一样,使用Hive来直接操作ElasticSearch中的数据,将极大的方便开发人员。本文使用的各组件版本分别为 Hive0.12、Hadoop-2.2.0、ElasticSearch 2
使用hive和impala遇到的一些错误
1.<em>问题</em>描述:首先在浏览器启动hue时会出现如下报错界面: 然后点开hue里的<em>hive</em>的Query Editor时,DATABASE一直刷不出来,并且写句<em>查询</em>语句执行时,会出现连接不到10000的错误。 解决方法: netstat -anp |grep 9083 查看9083端口发现被占用,所以将占用9083端口的所有进程kill掉后,重新启动metastore和<em>hive</em>serve...
hive查询 数据格式不正确的问题
今天帮后端同学写个<em>hive</em>语句,看了一眼数据格式之后,以为是嵌套的json结构,于是用later view json_tuple() 来解析,然后一直在抛出输入参数不是String类型的异常,觉得很奇怪,于是检查了一遍表的数据结构,发现不是json的结构,json结构里面key与value都是包含有\的,只是单纯的struct嵌套map的结构,struct直接读取就可以,map用map['key'...
时间不同步问题导致hive 只能select* 不能select count(*)select 某个字段 ,是因
时间不同步<em>问题</em>导致<em>hive</em> 只能select* 不能select count(*)select 某个字段 ,是因为select *不调用mr select单个字段或者count(*)调用mr 时间不同步<em>问题</em>导致<em>hive</em> 只能select* 不能select count(*)select 某个字段 ,是因为select *不调用mr select单个字段或者count(*)调用mr
大数据面试问题总结
<em>关于</em>大数据 hadoop spark hbase <em>hive</em>等<em>问题</em>总结
hive处理实际数据时数据总量的问题
1.背景在下在研究<em>hive</em>时,手上的数据是excel数据转化为txt以后再改为UTF-8编码最后上传的。txt文件有若干个,将它们统一编号使用rz命令上传到linux虚拟机上,放在同一个新建的文件夹下。首先是创建表,然后将所有txt文件中的数据导入表中LOAD DATA LOCAL INPATH '/root/test/*.txt' INTO TABLE turbo;这时候就可以对表进行操作了,首先
获取hive建表语句
http://www.alidata.org/arc<em>hive</em>s/939 如何获取<em>hive</em>建表语句 在使用<em>hive</em>进行开发时,我们往往需要获得一个已存在<em>hive</em>表的建表语句(DDL),然而<em>hive</em>本身并没有提供这样一个工具。 要想还原建表DDL就必须从元数据入手,我们知道,<em>hive</em>的元数据并不存放在hdfs上,而是存放在传统的RDBMS中,典型的如mysql,derby
Hive 没有 not in 解决方案
<em>hive</em> 里面没有 not in ,where <em>查询</em>时候可以 使用LEFT OUTER JOIN dpods_wfa_processhistory 表结构 需要<em>查询</em> param不为 ‘协议被驳回&’ 的ProcessId max(AddTime), 因为where不能使用not in,下面sql将bb表新增a字段,值为1(param值为 协议被驳回&)然后左外连接时,空值为取出的值
SQL on Hadoop,hadoop查询性能优化
对于一个工程师或者分析师来说,如何<em>查询</em>和分析TB/PB级别的数据是在大数据时代不 可回避的<em>问题</em>。SQL on Hadoop就成为了一个重要的工具。为什么非要把SQL放到Hadoop上? SQL易于使用;那为什么非得基于Hadoop呢?Hadoop架构具备很强的鲁棒性和可扩展性。本文从技术架构和最新进展两个角度分析一下各种SQL on Hadoop产品的优缺点和适用范围:Hive、Tez/Sti
总结:Hive性能优化上的一些总结
注意,本文百分之九十来源于此文:Hive性能优化,很感谢作者的细心整理,其中有些部分我做了补充和追加,要是有什么写的不对的地方,请留言赐教,谢谢前言 今天电话面试突然被涉及到<em>hive</em>上有没有做过什么优化,当时刚睡醒,迷迷糊糊的没把以前实习的中遇到的一些<em>问题</em>阐述清楚,这里顺便转载一篇并来做一下总结 介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些<em>问题</em>?数据量大不是<em>问题</em>,数
开发者请注意oracle jdbc的resultSet.last()方法的效率问题
在使用Hibernate分页器时,习惯使用直接把<em>查询</em>语句、页数、分页大小,传给分页器,这样会默认使用last来获取总记录数,效率非常的低。解决方法,很简单,就是用SQL来count<em>查询</em>条件获得总记录的Query,再给Hibernate分页器(本身就写好了的)。这样就必须多写几行代码,就是因为自己懒,觉着效果都一样,就简单的写了。数据量大了以后,就很明显的速度慢下来了。又全部重头改过,很是郁闷。转载...
HDP 3.1.0 HIVE使用tez 长时间无反应 成功解决
目录解决<em>问题</em>解决方法支持 解决<em>问题</em> HDP 3.0.0 安装的HIVE使用tez,执行任务需要用到tez session时会找不到 解决方法 在打开后增加以下设置 set <em>hive</em>.server2.tez.initialize.default.sessions=true; 如需一直生效,在<em>hive</em>的配置文件<em>hive</em>-site.xml中添加 &amp;amp;amp;amp;amp;lt;property&amp;amp;amp;amp;amp;gt; &amp;amp;amp;
SparkSQL性能调优
最近在学习spark时,觉得Spark SQL性能调优比较重要,所以自己写下来便于更过的博友查看,同时也希望大家给我指出我的<em>问题</em>和不足 在spark中,Spark SQL性能调优只要是通过下面的一些选项进行优化的: 1 spark.sql.codegen 默认值为false,当它设置为true时,Spark SQL会把每条<em>查询</em>的语句在运行时编译为java的二进制代码。这有什么作用呢?它可以提高
Hive查询性能测试记录
一、测试环境 HDFS 七个节点,五个dn,两个nn。Hive配置在其中一个nn,使用MySQL远程元数据库,同一个节点同时开启<em>hive</em>server2和metastore。所有节点内存一致,30GB,CPU为Intel(R) Xeon(R) CPU E5-2620 v3 @ 2.40GHz (x86_64)。所有节点通通过两台真实物理机虚拟(使用XenServer虚拟)。 二、
JDBC优化查询
优化前@Override public void findAll() { Student student=null; try { conn=myConn.getConnection(); //这是一个工具类用于数据库的链接与关闭操作 String sql=&quot;select * from student;&quot;; p...
HAWQ与Hive查询性能对比测试
一、实验目的        本实验通过模拟一个典型的应用场景和实际数据量,测试并对比HAWQ内部表、外部表与Hive的<em>查询</em>性能。二、硬件环境1. 四台VMware虚机组成的Hadoop集群。2. 每台机器配置如下:(1)15K RPM SAS 100GB(2)Intel(R) Xeon(R) E5-2620 v2 @ 2.10GHz,双核双CPU(3)8G内存,8GSwap(4)10000Mb/s
Impala 使用 (8小时 时区问题对应SQL调整)
1、因为Impala服务器使用的是默认时区 UTC 所以 我们使用正常的SQL <em>查询</em>出来的结果 是8小时之后的  比如st = '2018-11-14 10:00:00'  得到的结果st显示是'2018-11-14 10:00:00' 但是实际对应的数据是mysql中'2018-11-14 18:00:00'的,所以where比较和最后输出时需要加上8个小时  group by 中的st 不需要...
kettle批量插入hive2,解决表输出速度慢问题
解决kettle使用表输出到<em>hive</em>2时,批量提交不起作用导致速度非常慢的<em>问题</em>,重新编译big-data-plugin插件使表输出支持对<em>hive</em>2批量提交,速度由几十条每秒提升到三千条每秒。
百万数据 分页插件pageHelper select count(*)速度慢问题
方案1: 修改表引擎(能改最好)直接修改表引擎,如果默认是InnoDB,由于该引擎不保存表的具体行数,在数据量上百万后统计基本在1秒以上;修改为MyISAM;但是分页<em>查询</em>的时候同样是在100万以后的记录查会非常慢;方案2: 多建一个表用触发器维护尝试使用插件的自定义count语句,但是能找到的只有select max(id) 这样的,<em>查询</em>数量是模糊结果,不精确,方法是在原select语句下增加这一...
Carbondata并发修改表问题
最近在使用carbondata,业务逻辑中需要实现同时、多个线程共同写入一个表中,即并发写入。 看了官方文档,<em>关于</em>并发操作表的描述特别少: carbon.lock.typeThis configuration specifies the type of lock to be acquired during concurrent operations on table. There are fol
hive cli 启动缓慢问题
<em>hive</em>-0.13.1启动缓慢的原因 发现时间主要消耗在以下3个地方: 1. hadoopjar的时候要把相关的jar包上传到hdfs中(这里大概消耗5s,<em>hive</em>0.11一样,这个地方不太好优化) 2. 在每次<em>hive</em> cli启动的时候,初始化HiveMetaStore时,在init时,会调用以下3个方法,创建default db,role ,admin。 详细代码: sync...
使用impala/hive查询hbase数据
继续上周的测试,这周终于打通了<em>hive</em>到hbase的<em>查询</em>,这里以<em>hive</em>为例,impala走的是<em>hive</em><em>查询</em>hbase的路子。     hbase访问方式    Native JAVA  API 最常规的最高效的访问方式 Hbase Shell Hbase的命令行供,以JRuby接口,最简单接入,适合HBase管理
hive分区(partition)简介
一、背景 1、在Hive Select<em>查询</em>中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分区空间。 3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。 二、技术细节
Hive 外部表的练习(多表关联查询,以及分组,子查询)
                                    Hive 外部表的练习数据:创建表,以及添加数据:create external table if not exists my_course( courseid string, couresename string ) row format delimited fields terminated by ',' stored a...
Hue上执行hive的sql脚本
新建workflow 选择Actions里面的HiveServer2 Script拖拽即可 选择写好的脚本<em>hive</em>2hbase.sql use database; CREATE TEMPORARY TABLE test_dhb_lab as select * from dhb_tt_lab; INSERT into TABLE dhb_tt_lab select li.vin,(li.c_n...
pyhive中 一些错误的地方
因为最近在用集群用到了<em>hive</em> python连接需要使用py<em>hive</em>,但是这个包一直在报错 不存在tab_name和database_name,经过下午查源码发现了错误点 上面两处就是错误点需要改成下面的样子 这样子错误就消息了。这次修改仅限于0.2.1版本,因为后续应该会修好这个<em>问题</em>的。
怎样去找出线上hive或mapreduce运行慢的原因
<em>hive</em> mapreduce 都会转成java。所以要用的java分析工具。当看到map或reduce 阶段运行缓慢,我们去线上找到mapreduce的进程: 1. top 发现进程: 2. top -Hp 32486 找到进程中cpu或mem磁盘消耗最高的线程: 3.  用jstack主要用来查看某个Java进程内的线程堆栈信息: bin/jstack -F 26510
一个sql查询慢的问题的解决
一个sql语句用了8个like '%xx%', <em>查询</em>时间要5秒多,起初以为是like多的原因, 用Explain运行下,发现用到了file sort。 经仔细检查,发现是用到了子<em>查询</em>的原因。 本来打算用sphinx,阿里云的开放搜索什么的, 一个大牛说,数据不到1000万条都不用搜索引擎, 把子<em>查询</em>转到left join里面就好了。 ...
impala查询宕机问题解决记录
背景描述: 今天项目组添加了几个新的<em>查询</em>功能,主题还是传送sql语句和条数给impalaservice工具(之前做的一个<em>查询</em>工具),然后获取<em>查询</em>结果。模板做好以后,<em>查询</em>结果总是为空。排除很久才发现是<em>hive</em>数据库服务器宕机。 【1】首先检查sql语句语法是否有错 【2】查看部署impalaservice的服务器里面服务进程是否启动 【3】利用postman发送poast请求给impalas...
Hive语句执行优化-简化UDF执行过程
Hive会将执行的SQL语句翻译成对应MapReduce任务,当SQL语句比较简单时,性能还是可能处于可接受的范围。但是如果涉及到非常复杂的业务逻辑,特别是通过程序的方式(一些模版语言生成)生成大量判断语句时,出现的<em>问题</em>就会比较多。   精简Hive使用的SQL   当前项目中如果打包的数量过多,是当前性能的最大瓶颈,在做SQL优化时,至少会存在一个这样的SQL,当打包数量上百甚至到1千后
hive2.3部署实践踩过的一些坑
1、<em>hive</em>.metastore.schema.verification这个参数的属性设置为false,在<em>hive</em>-site.xml文件中修改。否则<em>hive</em>server启动失败。 2、如果报这样的错: Exception in thread "main" java.sql.SQLException: Could not open client transport with JDBC Uri:
hive 只有map没有reducer 的优化
<em>hive</em>中在做<em>查询</em>时,经常会碰到这种<em>问题</em>,任务只起map不起reduce; 环境: <em>hive</em>  100出头的节点 7T左右的内存 basic表有300-400个分区,总数据量在6亿-7亿; 如下sql: select * from  basic_sum where user_log_acct='abcd'; 这个sql只会起一个job,这个job只有map,没有reduce;输入数...
HIVE 动态分区的一个坑
HIVE 动态分区的一个坑 在<em>hive</em> sql中使用动态分区非常方便,也比较常用,但是在使用的过程中会带来一些<em>问题</em>,比如:在一段sql语句中我需要指定两个字段当做动态分区,一个字段的基数为7,另一个为4,这就是28个分区,我们的sql语句的最后一个job是一个仅有map阶段的任务,数据量大有4000个map,这种情况下map任务在往<em>hive</em>分区中写的时候,每个map几乎都要产生28个文件,这样就...
Hive面试题1
1. <em>hive</em>表关联<em>查询</em>,如何解决数据倾斜的<em>问题</em>?   倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 1)、key分布不均匀; 2)、业务数据本身的特性; 3)、建表时考虑不周; 4)、某些SQL语句本身就有数据倾斜; ...
关于SpringBoot bean无法注入的问题(与文件包位置有关)
<em>问题</em>场景描述整个项目通过Maven构建,大致结构如下: 核心Spring框架一个module spring-boot-base service和dao一个module server-core 提供系统后台数据管理一个module server-platform-app 给移动端提供rest数据接口一个module server-mobile-api 其中server-platform-app 与
Microsoft Visual Studio 2015 Unleashed 3rd 无水印pdf 第3版 0分下载
Series: Unleashed Paperback: 1320 pages Publisher: Sams Publishing; 3 edition (September 5, 2015) Language: English ISBN-10: 0672337363 ISBN-13: 978-0672337369 Microsoft Visual Studio 2015 empowers you to write next-generation applications for any modern environment: mobile, web, cloud, universal W 相关下载链接:[url=//download.csdn.net/download/u011433684/9404384?utm_source=bbsseo]//download.csdn.net/download/u011433684/9404384?utm_source=bbsseo[/url]
ORACLE sql 星期几 一个月的第几天等 方法下载
ORACLE sql 星期几 一个月的第几天等 方法 相关下载链接:[url=//download.csdn.net/download/mirage1982/2121474?utm_source=bbsseo]//download.csdn.net/download/mirage1982/2121474?utm_source=bbsseo[/url]
点阵式LED“0-9”数字显示技术下载
点阵式LED“0-9”数字显示技术 ,利用8X8点阵显示数字0到9的数字。 相关下载链接:[url=//download.csdn.net/download/hfhcctv/2491730?utm_source=bbsseo]//download.csdn.net/download/hfhcctv/2491730?utm_source=bbsseo[/url]
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 关于大数据培训 关于云计算
我们是很有底线的