java 查询hive 无法获取日志 (hive CDH5.12.1 ) [问题点数:200分,无满意结帖,结帖人cai5]

Bbs1
本版专家分:0
结帖率 95%
Bbs1
本版专家分:0
利用java jdbc从hive提取日志数据进行简单处理
利用<em>java</em> jdbc从<em>hive</em>数据库提取<em>日志</em>数据进行简单处理
JDBC方式连接Hive获取进度信息
最近做项目,有个小问题,JDBC连接<em>hive</em>操作后,由于<em>hive</em>的<em>查询</em>一般都比较久,用beeline或者<em>hive</em>命令行去操作,都可以看到进度信息,但普通的JDBC操作却看不到进度信息。需要<em>获取</em>进度信息,在网上没有找到相关资料后。研究了一下beeline的源代码。其实so easy!!!
CDH5.12.1版本搭建记录
CDH5.12.1搭建文档
获取hive日志,停止hive
rn    <em>获取</em><em>hive</em><em>日志</em>比较麻烦,通常的做法是执行shell命令<em>获取</em><em>日志</em>,但是这样有一些问题,比如:输出的结果需要程序解析等,可以改进<em>hive</em>,采用jdbc的方式执行<em>hive</em> sql,并且把输出到控制台的<em>日志</em>保存到redis,其中kill job的命令<em>日志</em>用不同的key缓存到redis,如此可很方便<em>获取</em><em>查询</em>结果、<em>日志</em>、kill命令。rn   具体实现方式如下:rn   修改<em>hive</em>-exec-...
Java客户端读取Hive 3.0任务进度(二)
Java客户端读取Hive 3.0任务进度(二)nn上文说道,我们初步的思路是通过HIve的<em>日志</em>和yarn的接口<em>获取</em>任务进度。n可能用到的其他知识:nHook介绍nHive添加Jarnn在实际的执行过程中,我遇到一个问题:在代码中写死的yarn的接口,如果yarn的服务地址发生改变怎么办?如果面对多个不同的yarn集群怎么办?可见我们需要动态的yarn的接口地址。n如何<em>获取</em>yarn集群的地址?n首...
HIVE JDBC任务执行流程
  Hive提供了多种访问方式,其中JDBC是一种。通常通过JDBC访问,可以规避用户对HDFS、Metastore的直接访问。本文研究研究一下HiveJDBC执行任务的流程。nnnnJDBC执行流程nnnn  主要流程分为三条线: n1. 执行任务,无返回 n 执行完成,<em>获取</em>执行结果[boolean/int],直接结束 n2. 执行任务,返回数据 n 执行完成,通过接口<em>获取</em>数据,用户...
hive查看日志
HIVE-如何查看执行<em>日志</em>nHIVE既然是运行在hadoop上,最后又被翻译为MapReduce程序,通过yarn来执行。所以我们如果想解决HIVE中出现的错误,需要分成几个过程nHIVE自身翻译成为MR之前的解析错误nHadoop文件系统的错误nYARN调度过程中的错误n2,3过程中的错误,请参考hadoop相关的教程,这里只是提醒大家思考的时候需要考虑到这两个方面的原因。搞清楚哪一个过程出问题...
[shell]编写shell脚本实现自动保存hive查询结果到本地
ndir=&quot;/user/tmp/yang&quot;nsql=&quot;insert overwrite directory '${dir}' row format delimited by '\t' $1&quot;necho &quot;${sql}&quot; #查看sql语句是否有误nnfilename=&quot;000000_0&quot;nlocaladdr=&quot;/home/yang&quot;nhadoop fs -cat ${dir}/${filename}...
java 利用jdbc连接hive查询示例
n1.千万记得执行这个命令bin/<em>hive</em> --service <em>hive</em>server &amp;gt;/dev/null 2&amp;gt;/dev/null &amp;amp;,rn否则就会出现<em>hive</em> ,Connection refuse 的异常。rn rn2.加入包,我这里的环境是hadoop1.01,<em>hive</em>0.8.1rn rnantlr-runtime-3.0.1.jarrncommons-logging-ap...
使用web界面查看hive
1.下载 apache-<em>hive</em>-src压缩包http://arc<em>hive</em>.apache.org/dist/<em>hive</em>/<em>hive</em>-1.2.0/n2. 解压后,进入 hwi ,将web目录打包jar cvfM0 <em>hive</em>-hwi-1.2.0.war -C web/ .n3. 将hwi目录下生成的jar 复制到你的 <em>hive</em>/bin目录下cp <em>hive</em>-hwi-1.2.0.war /usr/local/h
HiveServer2 获取日志
讨论的版本为: HiveServer2 版本 : 2.3.1 + tez n由于最近在弄WEBIDE,其中在连接Hiveserver2的时候,在Hiveserver2的<em>获取</em><em>日志</em>的方式,发现了两个坑,找了许多文献,也没有找到解决的办法。n其中一个坑,有一个同事在看到<em>hive</em>的BUG反馈中,看到一些类似情况,解决的。n而另外一个坑,是走了很多很多崎岖的路途,一步一步的发现出来的解决办法。nn
解决:提交的hive任务如何找回其提交的语句
n 只记得表名或者该任务的一些关键字,忘记了自己创建表时候的语句,可以从<em>hive</em>的执行<em>日志</em>中<em>获取</em>原始数据。特别适合定位该测试表是怎么创建的,或者定位别人表创建的由来nnn首先要确认提交的<em>hive</em>任务是在哪一台服务器提交的,一般默认<em>hive</em>的执行<em>日志</em>会放在提交任务的机器的/data/<em>hive</em>/tmp/{用户名}目录下nnn首先需要切换到root用户,然后切到根目录,不清楚目录结构的请看:Linux...
Hive数据仓库--Java代码JDBC方式访问Hive中表的数据
通过Java中jdbc的方式去操作Hive表中的数据,这个方式和之前web中使用的jdbc方式访问数据库是一致的。基本流程:1. 加载驱动程序。2. 建立连接。3. 预编译sql语句。4. 提交执行<em>获取</em>结果。基本的程序如下:try {n Class.forName("org.apache.hadoop.<em>hive</em>.jdbc.HiveDriver");n n String selectSq
从Hive处理日志到可视化到实时
Hive
搜狗日志查询分析 (MapReduce+Hive综合实验)
前提条件:nnn安装好hadoop2.7.3(Linux系统下)nn安装好MySQL(Windows系统下),推荐使用Xamppnn安装好Hive(Linux系统下)参考:Hive安装配置nn n题目:nn从搜狗实验室下载搜索数据进行分析nn下载的数据包含6个字段,数据格式说明如下:nn访问时间  用户ID  [<em>查询</em>词]  该URL在返回结果中的排名  用户点击的顺序号  用户点击的URLnn注意...
Java实现SparkSQL Thrift 方式读取Hive数据
private List&amp;lt;List&amp;lt;String&amp;gt;&amp;gt; queryHiveData(String sql) {n ResultSet resultSet = null;n Statement stmt = null;n Connection conn = null;n boolean flag = true;n int columnsCount ...
解决因hive表锁表,导致无法进行查询、删除等操作问题(实测,已解决)
正常登录<em>hive</em>数据库 发现其中test表<em>无法</em>操作,连基本的desc test命令都处于卡机状态,<em>查询</em>之后发现,原来是表被锁住了。因此,结合网上<em>查询</em>的一些方法,进行总结如下:nnn// 报错nFAILED: Execution Error, return code 1 from org.apache.hadoop.<em>hive</em>.ql.exec.DDLTask. nCurrent transa...
使用 JDBC 连接 hive 查询后把数据使用java反射注入到对象
要求 : 学习<em>hive</em>有几周了,最近一直使用<em>java</em>JDBC的方式连接<em>hive</em>进行操作,目前我还不知道有没有第三方的框架能做哈(刚玩不清楚),今天发现使用JDBC<em>查询</em>出来的结果 只能根据 列名 或者 下标 <em>获取</em>值,这种方式感觉太不灵活了,就想按照mybatis/hibernate 这样的 ORM 框架 可以把数据自动注入封装到 类中rn结果 : 通过一下午的实验,使用JAVA反射的方式可以把数据封
hive如何打开日志
在默认的<em>日志</em>级别情况下,是不能将DEBUG信息输出的,这样一来出现的各种详细的错误信息都看不到。我们可以通过以下两种方式修改log4j输出的<em>日志</em>级别,从而利用这些调试<em>日志</em>进行错误定位,具体做法如下:  $ <em>hive</em> --<em>hive</em>conf <em>hive</em>.root.logger=DEBUG,console (<em>hive</em>启动时用该命令替代)或者在${HIVE_HOME}/conf/<em>hive</em>-log4j.pro...
CDH中impala读取不到hive创建的表
问题:imapa中使用show tables未显示table信息,<em>hive</em>中使用show tables 会显示创建的表rn问题解释:The Impala metadatarn may be out of date on the specific Impalad that the client is connecting to, so a recently created table will no
Hive的元数据信息
Hive将表中的元数据信息存储在数据库中,如derby(自带的)、Mysql(实际工作中配置的)。通过Mysql进行示例说明: nHive数据仓库中: nMySql数据库中存储的相应元数据信息: nNavicate(远程连接的MySql)对应的元数据信息:
parquet.hadoop 狂打日志,不受控制
Confluent 将数据写入hadfs时,会调用parquet的接口。基本每写一次数据,就会打<em>日志</em>。有两点让人很崩溃:nn1. 对快速的流式来说,<em>日志</em>一直打一直打;n2. 不受kafka connect的log4j配置控制;
Java实现SparkSQL查询Hive表数据
Java实现SparkSQL<em>查询</em>Hive表数据
hive 执行查询任务失败
报错:replicated to 0 nodes instead of minReplication (=1). There are 1 datanode(s) running and 1 node(s) are excluded in this operation.解决方案:这是因为有一个datanode掉线了方案1:重启机器,重新开启hadoop集群发现掉线的那个节点的<em>日志</em>报错: WARN ...
hive命令行不打印日志
[Author]: kwu --- <em>hive</em>命令行不打印<em>日志</em>,<em>hive</em>的命令行运行会输出mapreduce的<em>日志</em>,这些<em>日志</em>对大部分用户来说是不需要的。
Hive中java对数据库、表的操作
在应用Hive之前,首先搭建Hive环境,关于Hive的搭建 参考之前的搭建文档http://blog.csdn.net/liulihui1988/article/details/74351532<em>java</em>代码执行Hive脚本<em>java</em>代码执行Hive脚本,需要启动Hive的内部服务,供其他或者<em>java</em>代码链接,Hive内部服务启动命令# ./<em>hive</em> --service <em>hive</em>server2启动成功
自己写UDF函数导入hive查询结果进行格式化显示(Java)
本篇UDF函数使用IntelliJ IDEA进行编写和打包,使用的是Java语言,数据使用上一篇博客“HDFS、Hive(Impala)读取本地文件到HDFS,再使用Hive(Impala)从HDFS读取文件进行建表”中已经放入<em>hive</em>中的数据进行<em>查询</em>展示。nn创建一个maven项目,导入依赖包nnn&amp;lt;!-- 根据Linux系统上安装的的hadoop和<em>hive</em>版本,设置版本参数,不一定和我的...
Hive报错日志记录
报错<em>日志</em>:Zero length BigIntegern<em>日志</em>内容:n<em>java</em>.lang.RuntimeException: org.apache.hadoop.<em>hive</em>.ql.metadata.HiveException: Hive Runtime Error while processing row (tag=0) [Error get...
Hive UDF调试打印的方法
<em>日志</em>的打印n导入用到的包nimport org.apache.commons.logging.Log;nimport org.apache.commons.logging.LogFactory;n n通过工厂模式<em>获取</em>一个Log对象:nstatic final Log LOG = LogFactory.getLog(NewGetKeyWithMaxValue.class.getName(
Java客户端读取Hive 3.0任务进度(一)
Java客户端读取Hive 3.0任务进度(一)nn通过查阅网上大神的博客可以发现,博客中读取Hive进度的方法都是通过Hive的<em>日志</em>去读取。但是我在查看Hive3.0的<em>日志</em>后,发现Hive3.0的<em>日志</em>中不会记录实时的任务进度,只会记录实时进度以外的其他数据。所以必须另辟蹊径,以解决这个问题。nn如何才能读取到Hive的任务进度?n通过观察可以发现,Hive的任务可以分为两种:nn不需要执行Map...
【大数据】Hive: 获取字段数据类型
n2018.12.01nn文章目录前言方法n前言n某项目涉及将Hive中的textFile表转换成parquet表,由于parquet表不支持date类型,需要判断字段是否是date,并cast成timestamp。n方法n采用DESCRIBE语句1既可:nDESCRIBE [FORMATTED] [db_name.]table_name[.complex_col_name ...]nnnnnDE...
Hive日志分析案例
<em>日志</em>分析案例rn1、分析流程rn-》需求分析rn-》数据采集rn-》数据清洗rn-》数据分析rn-》结果展示rn2、【需求分析】rn-》日期rn-》按照日期进行分组,基于时间维度的分析rn-》可以考虑建分区表,分区给定日期rn-》登录人数,代表的就是会员,使用账号登录的人rn-》登录之后会产生一个会员IDrn-》处理的时候可以看会员ID有没有值rn-》PVrn-》count(url)rn-》UVr
spark 读取hive 数据
1.启动spark-shell 需要加上mysql jar位置spark-shell --master local[2] --jars /Users/walle/app/mysql-connector-<em>java</em>-8.0.11.jar2. 简单sqlspark.sql(&quot;show databases&quot;).shownspark.sql(&quot;show tables&quot;).shownspark.sql(&quot;us...
hive查询大数据量得到结果不同
n n n 记录一个小操作的bug:n诡异的case:在执行一个select语句后,不同时间得到的<em>查询</em>结果数据量不同。n原因:nnnnnn执行状态nn此时,只是sql<em>查询</em>结束,而对于其结果需要写入3.546G的数据,写入数据尚未结束,sql没有完全执行结束。误以为是执行完毕,ctrl+z杀死了进程,导致结果不完整,两次运行时杀死进程的时间不一致,结果数量就有了偏差。n...
使用hive来分析nginx的log日志
在<em>hive</em> 的安装目录启动<em>hive</em>后。nnn[root@master <em>hive</em>]# ./bin/<em>hive</em>nwhich: no hbase in (/usr/tools/hadoop-2.7.3/bin/:/usr/<em>java</em>/jdk1.7.0_79/bin/:/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/root/bin)...
flume将日志hive实现
flume将<em>日志</em>到<em>hive</em>实现
查看Hive表元数据字段注解(hive元数据mysql库中)
n根据表名查sd_idnnmysql&amp;gt; select sd_id,tbl_name from tbls where tbl_name='s_member_core_customer_i';n+--------+--------------------------+n| sd_id | tbl_name |n+--------+----------------...
解决Hive中文乱码
在Hive中建表时,添加字段commment中文注释以便查看,但是desc 表名时出现乱码&quot;??&quot;,网上查阅资料总结了一下解决方案,步骤如下:nn1&amp;gt;在/etc/my.cnf中的[mysqld]后添加以下内容 nninit_connect='SET collation_connection = utf8_unicode_ci' nninit_connect='SET NAMES utf8'n...
数据仓库(十四)--java--presto---hive的分页查询
我们在SpringMVC框架中使用那个presto<em>查询</em><em>hive</em>的数据做展示时,发现在table里分页是个不可避免的话题。nn建议去掉countnn但是尴尬的是 对于海量数据 count的效率是很低的,因为在不加条件的情况下基本上要扫描全表。nncount操作性能比较收集 noracle里Count一亿条数据 大于10分钟 nmysql,3000万行记录,count(*)需要200s n<em>hive</em>+p...
Hive on spark日志打印问题总结(任务执行进度的透明化)
一:问题nn<em>hive</em> on spark中,当切到spark计算引擎的时候发现打印的<em>日志</em>不全,默认的<em>日志</em>只到下图就结束了nn nn对比之前mapreduce的<em>日志</em>nnnn我们可以很容易的发现MR<em>日志</em>有很详细的进度,用户可以通过查看这个map和reduce的进度来查看任务的执行情况,但是spark我们怎么办呢?nn二:分析nn通过在<em>hive</em>server端查看MR这些<em>日志</em>打印的行,都是SessionSt...
Hive的初始化和架构
Hive的初始化:n1.Hive是一个构建数据库的工具n2.两份数据 源数据 和 元数据(其中包括行的分隔符和字段的分隔符字段类型和字段名称,用来将来映射成表的时候可以明确有多少行和多少列)n3.mysql是把数据存储到本地磁盘,<em>hive</em>把源数据存放在HFDS上,把元数据存在了数据库中n4.Hive支持sql语句进行数据的处理n5.<em>hive</em>操作从sql到MR的过程nnHIVE架构:nn...
HIve实战分析Hadoop的日志
rnrnn1、<em>日志</em>格式分析首先分析 Hadoop 的<em>日志</em>格式, <em>日志</em>是一行一条, <em>日志</em>格式可以依次描述为:日期、时间、级别、相关类和提示信息。如下所示: nrn rn2013-03-06 15:23:48,132 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: STARTUP_MSG: rn/***********************...
Hive元数据库表分析及相关查询汇总(持续更新)
参考文章(先收藏):nn1.元数据表字段详细注释:Hive学习之路 (三)Hive元数据信息对应MySQL数据库表nn2.元数据表关联<em>查询</em>语句:<em>hive</em>元数据库表分析及操作nnnn一、<em>查询</em>汇总:nn1.<em>查询</em>元数据表字段描述信息nnn--<em>查询</em>元数据表字段描述信息nselect t.TBL_NAMEn ,c.COLUMN_NAMEn ,c.TYPE_NAMEn ,c.C...
Hive表获取字段状态变化记录-Lag函数应用
场景:<em>日志</em>表中记录了关于某个实体的状态变化所有信息,想单单提取出,按照时间轴顺序,发生了状态变化的数据行;n思路:Lag函数或者Lead函数可以将上一行或者下一行的字段内容<em>获取</em>到本行,这样可以比较字段是否发生变化,进而判断是否状态变化,是否需要提取出该数据行;n实现SQL:nnn1. 数据行内容nselectn house_id,n status,n create_t
在hue中操作hive
创建新表建表语句如下:CREATE TABLE IF NOT EXISTS user_collection_9( nuser_id string , nseller_id string , nproduct_id string , ntime stringn) nROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ; hue中向<em>hive</em>导入数据首先,
解析HiveSql语句中的所有表名
今天有个需求,解析我们<em>hive</em>sql语句中的表名,用来分析数据仓库中所有表的使用频率。<em>hive</em>中有个语法分析器可以将sql语法转换成语法树,并且可以将语法树转换为字符串。例如一个<em>hive</em>的sql语句如下:select t1.c1,t1.c2,t2.c1 nfrom nlijie.table1 t1nleft join nlijie.table2 t2nonnt1.id = t2.idnwhere
hue端查看任务日志报错
环境:CDH5.14.0,HIVE,YARN,HDFS都是cdh默认的版本nn背景:配置资源池的时候将resource manager的权限从 * 改为指定用户和groupnn现象:在hue中执行workflow后看不到<em>日志</em>nn报错:nnnUser [dr.who] is not authorized to view the logs for attempt_1542114179367_1068_...
日志hadoop大数据分析项目:hive以及hbase是如何入库以及代码实现
apache<em>日志</em>hadoop大数据分析项目: 数据时如何导入hbase与<em>hive</em>的到了这里项目的基本核心功能已经完成。这里介绍一下<em>hive</em>以及hbase是如何入库以及代码实现。首先我们将hbase与<em>hive</em>整合,详细参考about云分析discuz论坛apache<em>日志</em>hadoop大数据项目:<em>hive</em>与hbase是如何整合使用的about云分析discuz论坛apache<em>日志</em>hadoop大数据项目:...
Hive中对json处理
应用场景:使用Hive对<em>日志</em>信息进行<em>查询</em>分解,log里面记录的是json形式的数据:rn{"logid":"5d40e1af-19f7-4aad-af8f-c7247e322e5c","souc":"4","devi":"OPPO R7sm","sys":"22,5.1.1","dname":"Dalvik/2.1.0 (Linux; U; nAndroid 5.1.1; OPPO R7sm Bu
hive案例-用户行为日志分析
目录nn背景nn建立相关表nnweblog表nnmember用户表nnorders订单表nn <em>hive</em>用户<em>日志</em>分析nn简单<em>查询</em>、关联<em>查询</em>nn日期函数、正则表达式、窗口函数nn用户画像标签库的建立和使用【灵活使用行转列、列转行操作】nn背景nn用户行为<em>日志</em>格式如下:nnn{&quot;address&quot;:{&quot;country&quot;:&quot;中国&quot;,&quot;province&quot;:&quot;山东&quot;,&quot;city&quot;:&quot;济南&qu
Hive程序的ApplicationMaster日志报错的原因分析
我们发现,线上集群的<em>hive</em>程序,ApplicationMaster<em>日志</em>报以下错误。log4j:ERROR setFile(null,true) call failed.n<em>java</em>.io.FileNotFoundException: /home/disk5/yarn/logs/application_1516695722882_1173119/container_e03_1516695722882...
Java代码实现对hive的基本操作
1.导入jar包rn确保你的Zookeeper,Hadoop集群和<em>hive</em>启动着rn在eclipse上新建<em>java</em>项目,并在项目下建个lib文件夹,然后将jar包放到lib中导入项目rnrnrnrn<em>hive</em>的lib下的rnrn将其全部导入到项目中rn2.测试rn在你要测试的<em>hive</em>的主机的/usr/tmp建个student文件,里面放入一些数据rn数据列间使用一个\table(制表符)隔开rn1 lileirn2 hanm...
spark用scala读取hive表数据
spark1.6写法:nn    val conf = new SparkConf() n    val sc = new SparkContext(conf)n    val <em>hive</em>Context = new HiveContext(sc)nn    // 指定<em>hive</em>中使用的数据库;n    <em>hive</em>Context.sql(&quot;use abc_<em>hive</em>_db&quot;)n    //执行<em>hive</em><em>查询</em>n...
Hive parquet 表查询报错
把数据存成parquet 格式后,建立对应的表,但是<em>查询</em>的时候会报下面的错误:Hive Runtime Error while processing row [Error getting row data with exception <em>java</em>.lang.UnsupportedOperationException: Cannot inspect org.apache.hadoop.io.LongWr
Hive-命令行基本操作和java API访问hive数据库
安装 n首先说明<em>hive</em>的安装。 n链接: http://pan.baidu.com/s/1DleVG 密码: mej4 n这个链接是一个视频的链接,视频中讲解了如何安装<em>hive</em>。 n关于视频中用到的资料文件,我已经上传到CSDN,请点击这里下载。 n按照视频中的讲解步骤,完全可以完成<em>hive</em>的安装和调试。命令行基本操作 n命令行基本操作无非就是增删改查。 n n进入<em>hive</em>的命令行模式,命令:hi
大数据Hive集成python分析框架—搜狗实验室(用户查询日志)—电影评分分析
nnnn一、Spark 大数据分析框架nn1.1 数据结构n1.2 SQL语句简介nnnnn二、搜狗实验室(用户<em>查询</em><em>日志</em>)数据分析nn2.1<em>获取</em>数据集并初步分析:n2.2 创建数据库/表——导入数据分析nnnnn三、电影评分分析nn3.1 数据集 样本分析n在Hive中使用CTAS方式创建临时结果表–方便后续分析n使用Python脚本处理Hive表中数据nnnnnnnnnnnnnnnn一、Spar...
Hive查询count(*)有数据,但是select * 没有数据
若发生将一个使用LZO压缩过的表数据导入一个没有被压缩过表内,nn类似于如下两个表:nn图一:LZO压缩nnnn图二未压缩nnn<em>查询</em>将出现这种状况,hdfs目录下明明有数据,count(*)有数据总量,但是select就是<em>查询</em>不出来,n具体原因:n表的结构是未压缩过的,但是数据是压缩过的,通过select(此处<em>查询</em>的方法跟表的结构有关系)<em>查询</em>压缩过的结果,肯定不会显示,nn具体解决办法:n使用se...
Hive元数据库介绍及信息查看
一、概念Hive中有两类数据:表数据和元数据。和关系型数据库一样,元数据可以看做是描述数据的数据,包括1.<em>hive</em>表的数据库名、表名、字段名称与类型、分区字段与类型 2.表及分区的属性、存放位置等 n元数据存储路径和內表一样,分为本地和远程,可通过<em>hive</em>-site.xml文件设置 n二、元数据库信息元数据库中存在以下这些表: n元数据ER图 n元数据表结构详解看参见lxw的文章三、如何查看元数据库
Hive查询结果输出文件
进入<em>hive</em>执行:ninsert overwrite local directory '/tmp/ftp0803/' select * from tmp_ftp where userno='XX' order by starttime; n在/tmp/ftp0803/目录下看到文件。
查看Hive中表的所有信息(结构、字段、存放路径、属性)
目录nn1. <em>查询</em>创建表信息(show create table)nn2. <em>查询</em>表的字段信息(desc)nn3. 查看表的详细属性信息(desc formatted)nn4.查看表的详细信息(describe extended)nn5. 查看表的partitions信息(show partitions )nn1. <em>查询</em>创建表信息(show create table)nn里面有delemited...
【图文详细 】Hive shell操作
1、Hive 命令行nn这是 <em>hive</em> 支持的一些命令: nnn Command Descriptionnn quit     Use quit or exit to leave the interactive shell.nn set key=value    Use this to set value of particular configuration variable. On...
flume使用之flume+hive 实现日志离线收集、分析
在如今互联网行业中,数据的收集特别是<em>日志</em>数据的收集已经成为了系统的标配。将用户行为<em>日志</em>或者线上系统生产的数据通过flume收集起来,存放到数据仓库(<em>hive</em>)中,然后离线通过sql进行统计分析,这一套数据流的建设对系统有非常重要的意义。nn nn1、思路:nn1)线上系统通过log4j将数据打印到本地磁盘上;nn2)在线上系统服务器上安装flume,作为agent使用exec source将线上系...
Java调用Hive的操作
如何在Java中调用Hive的操作步骤如下:n1、启动Hive远程服务:n      命令: <em>hive</em> --service <em>hive</em>server2  &n      启动成功,命令框出现以下界面:n     n2、在Eclipse中创建Hadoop 项目,导入Hive的必须包n    Hive的必须包如下:n   n3、编写Java调用Hive的相关函数,代码如下:npackag
使用beeline/hive时,该如何停止打印INFO日志
前言n在使用beeline跑<em>hive</em><em>查询</em>时候会产生很多无用的INFO<em>日志</em>,那么该停止打印这些无效<em>日志</em>呢? 具体方法如下nHiveServer中的Logging配置n一般来说,我们会在Beeline客户端(Hive 0.14以后)看到HiveServer2操作<em>日志</em>。n以下为HiveServer2中与<em>日志</em>相关的参数:nnnn参数n默认值n描述nnnnn<em>hive</em>.server2.logging.oper...
异步处理hive-jdbc执行请求
  最近需要使用<em>hive</em>服务进行标签计算任务,故需要使用<em>hive</em>-jdbc在后端搭建服务,以执行前端发送的hql语句. n  由于<em>hive</em>的计算常需要运行MR/SPARK任务,所以一个hql语句(如count语句)往往要等待很长时间才能完成,若采用同步等待的方式,前端的http连接需要等待若干分钟才能返回,又由于标签计算任务的数量不可预计,即使扩大连接池也<em>无法</em>保证全部处理前端发来的计算请求.针对这...
hive -e 和hive -f 重定向数据,清除warn
问题现象:rn<em>hive</em> -f “hsql.sql” &amp;amp;gt; /tmp/hsql.logrn<em>hive</em> -e “select * from tmp.table limit 10” &amp;amp;gt; /tmp/hsql.logrn备注:<em>hive</em> -f与<em>hive</em> -e 作用是相同的。-f 是指定hsql文件。-e 是指定要执行的sqlrnHIVE执行重定向之后数据最后多了两行<em>日志</em>。rnWARN: The method c...
Hive读取HDFS上面的数据和使用Squirrel客户端连接Hive
一、把数据从HDFS导入到<em>hive</em>的表里nn前面已经测试了利用Sqoop把数据从SQL Server导入到hdfs中,但是分成了好多小文件,这里有两种方法读取数据。nn第一种方法:创建内部表导数据nn1.建表nn在<em>hive</em>里面建立好对应的表格nn create table sites(xxx int,xxx string,xxx  timestamp)n    row format delimit...
分享一个JDBC查数据库出现的一个问题
问题详情,紧急需求临时搞了一个JDBC查Hive的引擎,根据<em>获取</em>的ResultSet在内存做计算,需要把ResultSet保留在内存一段时间,但是在后续对ResultSet的处理中出现了错误,错误详情:nnn<em>java</em>.sql.SQLException: Error retrieving next rown at org.apache.<em>hive</em>.jdbc.HiveQueryResultSet.nex...
使用hiveF对sql语句的封装
使用<em>hive</em>F对sql语句的封装
hive获取分区表最新分区的数据
分区表:devin 分区字段:op_day(8位格式日期:20181112)rnselect t2.*rnfromrn(select max(op_day) as latest_op_day from devin) t1rnjoin devin t2rnonrnt1.latest_op_day = t2.op_day;rnrn
hive 查看某表字段类型
desc formatted table_name
hive 查询表中的数据来源hdfs 位置
1\Hive中查看数据来源文件和具体位置方法rnselect id, dt ,xxx ,INPUT__FILE__NAME,BLOCK__OFFSET__INSIDE__FILErnrnfrom data_mp_raw.xxxxxx where dt='20161127' and log_type=xxxrnrnand hour='18' limit 30;
Hive调用MapReduce任务失败
1. Hive简介Hive(蜂巢)Apache Hadoop生态圈的构成之一,其主要功能是基于Hadoop提供MapReduce的类SQL<em>查询</em>。Hive的语法规则和Mysql中SQL的语法规则极为相似,有Mysql使用经验的同学都能轻松上手。 nHive的执行分为本地模式和集群模式。本地模式执行简单的Hive SQL,不需要启动MapReduce程序,如-- 本地模式nselect col_name
java api操作hive遇到的问题
package hadoop_study;import <em>java</em>.sql.Connection;nimport <em>java</em>.sql.DriverManager;nimport <em>java</em>.sql.SQLException;nimport <em>java</em>.sql.Statement;public class HiveCreateDb { private static String diverName="
Hive学习六:HIVE日志分析(用户画像)
Hive学习六:HIVE<em>日志</em>分析(用户画像)标签(空格分隔): HiveHive学习六HIVE<em>日志</em>分析用户画像n案例分析思路n一创建临时中间表n二将中间结果存放到临时表中n三创建结果表并存入最终jieguojin总结n案例分析思路根据原始数据表里面的信息提取用户画像信息,一方面实现难度较大,另一方面由于数据量较大,从而导致实现的性能较差。由于以上2点,所以考虑从原始表中提取用户的会话信息放到临时中间
HIVE获取最新分区的数据的方法
场景以dt(日期)分区的<em>hive</em>表,<em>获取</em>最新一天的分区数据 n如果是普通的SQL的话,下面这样写就可以了,但是<em>hive</em>中这种写法会报错SELECTn*nFROM xxxnWHERE dt=(SELECTnmax(dt)nFROMnxxx)解决方法在<em>hive</em>里,要用alias才能<em>获取</em>分区中的数据,而且<em>查询</em>条件(WHRER)中还必须带有分区字段(dt),否则会报错SELECTnb.item as `it
Impala查询不到hive数据
背景rn<em>hive</em>写入的数据,<em>hive</em>是可以查到数据,impala进行过元数据的刷新,然后<em>查询</em>此表,<em>查询</em>成功,返回结果是空表。rn原因rn写入数据的SQL里使用了UNION,导致HDFS目录结构多了一层,本来是分区底下直接是数据,使用了UNION后,有几个UNION,分区底下会出现几个文件夹,依次为1,2,3…,文件夹里面才是数据。导致Impala<em>无法</em>访问到具体数据。也许Imapla新版本解决了这个问题,...
Hive 查找属性
可以使用如下命令查找特定的属性配置nn<em>hive</em> -S -e &quot;set&quot; | grep warehousennn[hadoop@s201 ~]$<em>hive</em> -S -e &quot;set&quot; | grep warehousenSLF4J: Class path contains multiple SLF4J bindings.nSLF4J: Found binding in [jar:file:/soft/apa...
HIVE SQL 的三种查找当前日期
以下3种方式 都可以在<em>hive</em> sql中查找当前时间nnnSELECT CURRENT_DATE;nnnnn---2017-06-15n n SELECT CURRENT_TIMESTAMP;nnn--2017-06-15 19:54:44n nn SELECT from_unixtime(unix_timestamp());nnn--2017-06-15 1
记录一个自己写的hiveUDAF
这是一个我自己参考网站写的UDAF,期间各种bug,终于让我跑通了,作用是输入表字段名称,输出字段的统计总行数,为空行数,以及top十条去重后的样例数据,方法说明都有标注,以下是代码贴图:nnnpackage com.zh.<em>hive</em>;nnnnimport net.sf.json.JSONObject;nimport org.apache.hadoop.<em>hive</em>.ql.metadata.HiveEx...
Spark整合hive,读取hive中数据
测试环境:hadoop : 2.7.6      spark : 2.3.1      <em>hive</em> : 2.3.2nn1. 首先,添加依赖jar包:nnn目的:为了创建<em>hive</em>Context对象n &amp;lt;dependency&amp;gt;n &amp;lt;groupId&amp;gt;org.apache.spark&amp;lt;/groupId&amp;gt;n &amp;lt;...
如何将hive的执行结果返回给一个变量
首先可以将<em>hive</em> sql写入python脚本nnn假如有如下<em>hive</em> sql:n<em>hive</em>_cmd = '<em>hive</em> -e "select count(*) from hbase.routermac_sort_10;"'nn一般在python中按照如下方式执行该<em>hive</em> sql:nos.system(<em>hive</em>_cmd)n但是当我需要在程序中拿到count()的执行结果时,使用os.s
19-天亮大数据系列教程之hive周期任务布署之crontab+nohup打印日志不完整解决方法
目录 n 1、问题背景 n 2、原因分析与解决方法 n 3、操作步骤 n 4、验证方法 n 5、注意事项nn1、问题背景 n&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;crontab是linux运维之周期性任务执行的利器,nohup是后台无挂起执行+<em>日志</em>打印的利器,两者结合后可以解决周期性任务的执行策略和<em>日志</em>打印问题。 n&amp;nbsp;...
shell语句执行hive查询
[size=large][b]执行<em>hive</em><em>查询</em>实例[/b][/size]rn[b]执行select<em>查询</em>[/b]rn [code=&quot;shell&quot;]$HIVE_HOME/bin/<em>hive</em> -e 'select a.col from tab1 a'[/code]rn[b]加入配置变量的<em>查询</em>[/b]rn [code=&quot;shell&quot;]$HIVE_HOME/bin/<em>hive</em> -e 'selec...
Hive元数据 表结构
Hive元数据nnnnnn简单整理nn
解决cli查看hive字段不全问题
<em>hive</em>、 字段缺失
Hive查询特殊字段解决方案
问题:nn1.字段、表名是中文,表名,数据库是中文名,怎么解决?nn2.字段、表名特殊的字符包括 \,  (),  $ ...,怎么解决?nn3.类似于func(xxx), 这是一个字段名字,不是一个函数嵌套字段,但是在<em>hive</em><em>查询</em>引擎的解析处理中,被解析为一个udf函数和一个字段名字,怎么解决?nn nn解决方法:nn1.基础解决方案,使用反引号例如: &quot; `` &quot; nncreate table...
java实现Presto在线查询Hive
n@Overriden public String queryHiveData(String sql, int page, int pageSize, String jobID, long startTime) {n SQLQueryModel sqlQueryModel = new SQLQueryModel();n if (!sql.equals(sqlUti...
Hive表中通过查询插入数据错误(解决!)
1.报错如下:nn2.错误原因:n表中字段太多,为了简便使用了 select *,导致<em>查询</em>结果中的列数不匹配。n3.解决办法:n将 select * 改为需要的字段即可。nnn
hive里如何快速查看表中有多少记录数
方法一:n在hue界面的<em>hive</em>下找到相应的表,即可看到表的行数和大小等信息。nnnnn方法二编写脚本,nnn[root@namenode01 <em>hive</em>]# cat count_tables.sh nmyorder=1nwhile read line;ndoneval &quot;<em>hive</em> --database tpc_ds -S -e 'select \&quot;$myorder\&quot; a
删除hive的部分分区后,Presto查询数据失败,但是Hive查询却有数据
文章目录1.异常信息2.原因3.解决方案n1.异常信息n<em>查询</em>使用presto<em>查询</em><em>hive</em>表,显示partition location dose not exist: hdfs:\xxxxnn2.原因n对<em>hive</em>数据分区进行了物理删除,但是<em>hive</em><em>查询</em>时可以屏蔽该错误,但是Presto<em>查询</em>的时候不能屏蔽该错误,而是将该错误抛出。n3.解决方案n手动删除<em>hive</em>的元数据中的分区信息,如下所示:nalt...
使用mapreduce清洗web访问日志并导入hive数据库流程
编写一个简单的<em>日志</em>清洗脚本,原始访问<em>日志</em>如下:192.168.18.1 - - [16/Feb/2017:13:53:49 +0800] &quot;GET /favicon.ico HTTP/1.1&quot; 404 288n192.168.18.2 - - [16/Feb/2017:13:53:49 +0800] &quot;GET /鞋子/男鞋/运动鞋/a001 HTTP/1.1&quot; 404 288n192.168.18...
Spark查询Hive表时没有权限及无法找到表
用spark-submit执行python文件,进行<em>hive</em>表的操作时,会出现报错:n<em>java</em>.lang.RuntimeException: <em>java</em>.lang.RuntimeException: The root scratch dir: /tmp/<em>hive</em> on HDFS should be writable. Current permissions are: rwx------
flume采集日志到HDFS中再导入到hive表中
flume介绍nnn Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on st...
SpringBoot和hadoop组件Hive的集成(填坑)
说实话,SpringBoot和Hive的集成还是有不少坑的,最主要的坑就是jar包冲突的问题,这个坑我这里添了我遇到的坑,我提供了源码,放在后边的链接中,以下是部分的代码。nn1.上maven依赖,如下:nnn&amp;lt;project xmlns=&quot;http://maven.apache.org/POM/4.0.0&quot; xmlns:xsi=&quot;http://www.w3.org/2001/XMLSche...
jdbc连接hive超时的问题
jdbc连接<em>hive</em> 超时的问题,原因:1.hadoop服务没有启动,2.<em>hive</em>服务没有启动、3.防火墙没有关闭。
Spark SQL 读取hive分区表出现分区字段为null的情况
今天在使用Spark SQL 读取<em>hive</em>分区表数据的时候,出现了下面的错误:nnnn由于这个表是数仓维护提供给我使用的,我并不是很清楚表中数据的情况,于是我取查了一下这个表,发现分区字段pk_year,pk_month,pk_day这几个字段确实都存在为默认的情况:nnnn在<em>hive</em>里面表可以创建成分区表,但是当分区字段的值是''&quot; 或者 null时 <em>hive</em>会自动将分区命名为默认分区名称。nn...
hive查询语法-数据类型-函数-综合(twenty-four day)
1、<em>查询</em>语法nncreate table t_a(name string,numb int)nrow format delimitednfields terminated by ',';nncreate table t_b(name string,nick string)nrow format delimitednfields terminated by ',';nnload data local...
hive-jdbc-1.1.0-cdh5.12.1 连接库 jar包
<em>hive</em>-jdbc-1.1.0-<em>cdh5.12.1</em> 连接库 jar包,用于客户端连接<em>cdh5.12.1</em> 下部署的<em>hive</em>,很多第三方客户端可使用
gvim常用插件及其配置文件配置(下载解压即可使用)下载
gvim常用插件及其配置文件 支持c,perl,python,latex。 需要自己安装ctags .vim: after compiler doc indent ltags perl-support skeleton syntax autoload c-support ftdetect keymap Makefile plugin snipMate.vim.ct tools colors CVIMSYN ftplugin latextags Makefile 相关下载链接:[url=//download.csdn.net/download/qazplm12_3/2626926?utm_source=bbsseo]//download.csdn.net/download/qazplm12_3/2626926?utm_source=bbsseo[/url]
SecureCRT 5.1 Windows远程Linux工具下载
SecureCRT 5.1 Windows远程Linux 相关下载链接:[url=//download.csdn.net/download/hhf383530895/2301796?utm_source=bbsseo]//download.csdn.net/download/hhf383530895/2301796?utm_source=bbsseo[/url]
cobol 常见的面试题下载
Q1) Name the divisions in a COBOL program ?. A1) IDENTIFICATION DIVISION, ENVIRONMENT DIVISION, DATA DIVISION, PROCEDURE DIVISION. Q2) What are the different data types available in COBOL? A2) Alpha-numeric (X), alphabetic (A) and numeric (9). Q3) What does the INITIALIZE verb do? - GS A3) Alphab 相关下载链接:[url=//download.csdn.net/download/sean_watch/3416897?utm_source=bbsseo]//download.csdn.net/download/sean_watch/3416897?utm_source=bbsseo[/url]
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 hive java学习 大数据hive学习
我们是很有底线的