hadoop 伪分布模式 下的hive,执行select count(*) 出错 [问题点数:100分]

Bbs1
本版专家分:0
结帖率 96.72%
Bbs1
本版专家分:0
hive执行select count(1) from table 后,一直无反应
https://www.oschina.net/question/1386516_2148428
时间不同步问题导致hive 只能select* 不能select count(*)select 某个字段 ,是因
时间不同步问题导致<em>hive</em> 只能<em>select</em>* 不能<em>select</em> <em>count</em>(*)<em>select</em> 某个字段 ,是因为<em>select</em> *不调用mr <em>select</em>单个字段或者<em>count</em>(*)调用mr 时间不同步问题导致<em>hive</em> 只能<em>select</em>* 不能<em>select</em> <em>count</em>(*)<em>select</em> 某个字段 ,是因为<em>select</em> *不调用mr <em>select</em>单个字段或者<em>count</em>(*)调用mr
hive进行count(*)查询报错
使用Hive进行<em>count</em>(*)查询时报错,错误信息如下: chmod: changing permissions of 'hdfs://master138:9000/tmp/<em>hive</em>/anonymous/e013b757-aeee-4017-b0a8-d274d2fafee9/<em>hive</em>_2015-11-20_18-41-46_506_1447956695788790313-3/-mr-100...
Hive中select * 没有数据,而select count(*)有数据解决方法
刚接触Hive,之前建表都是 external 表,这种表就是基于有外部.csv数据文件的,只要在建表时指明location,然后再将数据文件放到该路径就OK,今天建了一张普通表,发现这里面的数据不正常,我用<em>select</em> * from table_name没有数据,但是<em>select</em> <em>count</em>(*)明明有300行数据,从头检查到尾,发现我建普通表的时候,竟然加上了location! 我是这样写的(
Hive-为什么没有启动MapReduce任务
Hive-fetch task 优化 <em>hive</em>.fetch.task.conversion <em>hive</em>.fetch.task.aggr <em>hive</em>.fetch.task.conversion.threshold
Hive查询count(*)有数据,但是select * 没有数据
若发生将一个使用LZO压缩过的表数据导入一个没有被压缩过表内, 类似于如下两个表: 图一:LZO压缩 图二未压缩 查询将出现这种状况,hdfs目录下明明有数据,<em>count</em>(*)有数据总量,但是<em>select</em>就是查询不出来, 具体原因: 表的结构是未压缩过的,但是数据是压缩过的,通过<em>select</em>(此处查询的方法跟表的结构有关系)查询压缩过的结果,肯定不会显示, 具体解决办法: 使用se...
Hadoop学习之以伪分布模式部署Hadoop及常见问题
WARNorg.apache.<em>hadoop</em>.hdfs.server.datanode.DataNode: Invalid directory indfs.data.dir: Incorrect permission for /home/<em>hadoop</em>/testData, expected:rwxr-xr-x, while actual: rwxrwxr-x 2013-12-1314:57:36,1
Hive分区表count(*)不起mapreduce的真相
问题背景: 在对Hive求<em>count</em>(*)时,发现有些表会启mapreduce计算、返回 结果,比较耗时,有的表1秒之内返回结果 刚开始以为刚刚<em>执行</em>过一次<em>count</em>()后会对结果进行缓存,不用再去跑mapreduce,但经进一步实验发现大多数表每次<em>执行</em><em>count</em>()操作都会跑mapreduce,于是猜测的结论不成立。 后在必应查找原因,大部分的结果都指向了:‘<em>hive</em>从1.0开始采用Fetch
CentOS下Hadoop伪分布模式安装笔记
CentOS下Hadoop<em>伪分布模式</em>安装笔记    一. 前言        Hadoop 伪分布式模式是在单机上模拟 Hadoop 分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式。Hadoop 本身是无法区分伪分布式和分布式的,两种配置也很相似,唯一不同的地方是伪分布式是在单机器上配置,数据节点和名字节点均是一个机器。 现在很多初学者根本不具备搭建完全分布式集群的硬件
HADOOP 单机模式 伪分布式 完全分布式区别
1.单机(非分布式)模式 这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统,一般仅用于本地MR程序的调试 2.伪分布式运行模式 这种模式也是在一台单机上运行,但用不同的Java进程模仿分布式运行中的各类结点: (NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode)   请注意分布式运行中的这几个结点的...
Hadoop2.x环境搭建之搭建伪分布模式以及运行wordcount案例【HDFS上的数据】
一、部署运行HDFS文件系统 1.在<em>hadoop</em>的安装目录下有core-site.xml和hdfs-site.xml这两个文件,下面分别配置这两个文件: core-site.xml: &amp;lt;property&amp;gt; &amp;lt;name&amp;gt;fs.defaultFS&amp;lt;/name&amp;gt; &amp;lt;value&amp;gt;hdfs://hostname/ip:80...
关于HADOOP伪分布模式下启动出错的问题
用start-all.sh进行启动后 -bash-3.2# bin/start-all.sh Warning: $HADOOP_HOME is deprecated.   starting namenode, logging to /var/log/<em>hadoop</em>/root/<em>hadoop</em>-root-namenode-MAPS-1.out localhost: starting data...
Mac hadoop 安装及配置(伪分布模式)
环境条件 JDK1.8 Hadoop 2.7.5 mac os Hadoop部署步骤 第一步 安装JDK 因为Hadoop是java写的开源框架,所以必须建立在Java的运行环境上。本篇采用的是JDK1.8 ,其实只要1.7以上的版本就可以了 需要配置好JDK的环境变量,这里就不详细说了 第二步 安装Hadoop a) 下载Hado...
hive2.0单机、伪分布搭建
1. 所需要的环境 Hive 2.0需要以下运行环境:  Java 1.7以上(强烈建议使用Java 1.8)  Hadoop 2.X 2. 下载、解压Hive安装包 Hive官网地址: http://<em>hive</em>.apache.org/  例如: wget "http://mirrors.cnnic.cn/apache/<em>hive</em>/<em>hive</em>-2.0.0/apache-<em>hive</em>
hive count(*) 获得0行数据
配置<em>hive</em>支持事务操作,在<em>hive</em>-site.xml里添加以配置:           <em>hive</em>.support.concurrency           true               <em>hive</em>.enforce.bucketing           true               <em>hive</em>.exec.dynamic.partition.mode
配置Hadoop伪分布式模式并运行WordCount示例操作实例演示步骤
该篇博客是基于<em>hadoop</em>单机模式的构建成功的前提下,进行直接操作的,关于  <em>hadoop</em>单机模式的构建可以参考为上一篇博文:http://blog.csdn.net/henni_719/article/details/77718642 PS:全程以root的角色进行配置安装 第一部分:伪分布式配置 <em>伪分布模式</em>主要涉及一下配置信息: (1)修改hado
四、伪分布下安装hive1.2
声明:本篇blog并没有配置MySQL,不过会在接下来的文章中实现 一、环境 Ubuntu14.04 <em>hadoop</em>2.6伪分布(安装教程请参考:点击打开链接) <em>hive</em>-1.2.1(下载链接:点击打开链接) 二、安装 1、将其下载的安装包解压到相应的目录,在此小编的是/usr/local/<em>hadoop</em>/      tar  -zxcf apache-<em>hive</em>-1.2.1-bin.
hiveshell不能执行select语句问题
最近碰到一个很玄学的问题,就是我的CDH集群中部署的<em>hive</em>,在hue上可以<em>执行</em><em>hive</em>查询语句,但是到<em>hive</em>shell中不能<em>执行</em>!废话不多说直接看报错图吧 猛的一看以为缺啥jar包,但是想想不应该啊,我用cludera CDH部署的,然后带着这个问题去问度娘,度娘告诉我说不<em>hive</em>版本与<em>hadoop</em>版本不一致,我当时是崩溃的,不应该啊,我cdh、 部署不存在这个问题的。然后各种求教
Windows平台下安装Hadoop(伪分布模式
1、安装JDK1.6或更高版本   官网下载JDK,安装时注意,最好不要安装到带有空格的路径名下,例如:Programe Files,否则在配置Hadoop的配置文件时会找不到JDK(按相关说法,配置文件中的路径加引号即可解决,但我没测试成功)。 2、安装Cygwin   Cygwin是Windows平台下模拟Unix环境的工具,需要在安装Cygwin的基础上安装Hadoop,下载地址:ht
使用hive、java api两种方式实现wordcount功能、及个人感悟
使用<em>hive</em>、java api两种方式实现word<em>count</em>功能、及个人感悟
Hive伪分布模式安装
1、安装和配置 可以通过下载压缩包来安装一个稳定版的Hive,也可以下载源码进行编译。 1.1 运行HiveServer2和Beeline 1.2要求 java1.7+,官网推荐1.8 Hadoop2.x 1.3安装Hive的稳定版 下载当前稳定版http://mirrors.cnnic.cn/apache/<em>hive</em>/<em>hive</em>-2.1.0/。 解压缩,并重命名 tar -zxv
Hadoop伪分布模式安装以及在Eclipse中运行第一个MapReduce项目
<em>伪分布模式</em>. Hadoop守护进程运行在本地机器上,模拟一个小规模的的集群。该模式在单机模式之上增加了代码调试功能,允许你检查内存使用情况,HDFS输入输出,以及其他的守护进程交互。 <em>伪分布模式</em>安装前提:单机模式已经安装好,详情请见:单机模式安装 接下来只需要配置即可 1 配置core-site.xml  hdfs-site.xml  mapred-site.xml  core-sit
Hadoop伪分布模式操作
摘要:本文介绍Hadoop<em>伪分布模式</em>操作,适合于Hadoop学习、开发和调试。 关键词:Hadoop 伪分布式 文件配置
Hive实现wordcount的统计
1 所需环境 Hive的安装参考地址 2 创建一个数据库 创建word<em>count</em>数据库 <em>hive</em>&amp;gt; create database word<em>count</em>; OK Time taken: 0.389 seconds <em>hive</em>&amp;gt; show databases; OK default word<em>count</em> Time taken: 0.043 seconds, Fetch...
Hadoop伪分布配置错误总结
Hadoop伪分布配置错误总结小编在进行<em>hadoop</em>学习过程中,在对<em>hadoop</em>的伪分布进行配置时,对两个配置文件进行了修改。一个是core-site.xml和hdfs-site.xml。配置后运行出现了以下错误:17/03/13 04:20:36 ERROR namenode.NameNode: Failed to start namenode. java.lang.IllegalArgument
独立模式、伪分布模式、hbase和hadoop HA(高可用)完全分布式模式。集成配置
一、独立模式:1.下载hbase文件 略 2.tar开 略 3.配置环境变量 略 4.修改配置文件 在hbase安装目录下: //配置jdk路径 [/conf/hbase-env.sh] export JAVA_HOME=/zdq/jdk//配置hbase文件路径 [conf/hbase-site.xml] hbase.rootdir
Hive查询count(*)和count(1)显示为0,但表中存在数据
进入<em>hive</em> shell,输入set <em>hive</em>.compute.query.using.stats=false,然后运行下查询语句,发现正常。 对应Ambari中Hive组件的配置参数: 修改后可能对查询性能稍微有点影响...
HIVE点滴:group by和distinct语句的执行顺序
同一条语句之中,如果同时有group by和distinct语句,是先group by后distinct,还是先distinct后group by呢? 先说结论:先group by后distinct。
【Hadoop入门学习系列之一】Ubuntu下安装Hadoop(单机模式+伪分布模式
一.安装须知 Hadoop版本问题:Hadoop 有两个主要版本,Hadoop 1.x.y 和 Hadoop 2.x.y 系列,比较老的教材上用的可能是 0.20 这样的版本。Hadoop 2.x 版本在不断更新,本教程均可适用。如果需安装 0.20,1.2.1这样的版本,本教程也可以作为参考,主要差别在于配置项,配置请参考官网教程或其他教程。自学建议安装最新版本,目前是<em>hadoop</em>2.7.2 单机
Hadoop 2.x 本地模式、伪分布模式、全分布模式的搭建
  一、准备工作 1、安装Linux、JDK、关闭防火墙、配置主机名 配置主机名 vi /etc/hosts 本地模式和<em>伪分布模式</em>只需要添加一台主机名,全分布模式需要添加三台 本地模式和<em>伪分布模式</em> 192.168.100.11  bigdata11       全分布式 192.168.100.12   bigdata12 192.168.100.13   bigdata13 ...
Hadoop伪分布模式(HDFS)
http://<em>hadoop</em>.apache.org/docs/r2.8.2/    官网学习部署方式:1.单机模式standalone   1个java进程,用来做debug的 下载即可使用   (一般忽略)2.<em>伪分布模式</em>Pseudo-Distributed Mode  开发|学习  多个java进程    (重点了解)3.集群模式Cluster Mode   :生产 多台机器多个java进程htt...
关于hive中的count与group by的总结
Group By语句从英文的字面意义上理解就是“根据(by)一定的规则进行分组(Group)”。它的作用是通过一定的规则将一个数据集划分成若干个小的区域,然后针对若干个小区域进行数据处理。  注意:group by 是先排序后分组;  <em>count</em> :. 1、 并不是说group by和<em>count</em>()操作不能同时使用,只是说查出来的东西不一样,每个都有其应用的情况,如本例:最开始方法查出来的就...
Hive针对distinct的优化(一)
<em>hive</em>针对<em>count</em>(distinct xxx)只产生一个reduce的优化。 0x00 造成的原因 由于使用了distinct,导致在map端的combine无法合并重复数据;对于这种<em>count</em>()全聚合操作时,即使设定了reduce task个数,set mapred.reduce.tasks=100;<em>hive</em>也只会启动一个reducer。这就造成了所有map端传来的数据都在一个
Hadoop-2.8.0实践——单机模式和伪分布模式
一、安装 1.1 环境 系统:Ubuntu 16.04 LTS 软件: Java 1.7及以上 ssh 和 sshd 安装ssh: $ sudo apt-get install ssh $ sudo apt-get install rsync 1.2 下载 Hadoop 2.8.0 下载地址:http://mirror.bit.edu.cn/apache/<em>hadoop</em>/common/h...
Hadoop2.x伪分布模式(HDFS)
概述参考官网地址What Is Apache Hadoop? The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.The Apache Hadoop software library is a framework that allows for
Hadoop1:Linux下部署Hadoop伪分布模式
JDK版本为1.8_191 Hadoop版本为2.4.1 Distribution为Ubuntu14 1,创建<em>hadoop</em>账号 #创建<em>hadoop</em>用户组 root@sean:~# groupadd <em>hadoop</em> #在<em>hadoop</em>用户组下创建<em>hadoop</em>账号 root@sean:~# useradd -d /home/<em>hadoop</em> -m -g <em>hadoop</em> <em>hadoop</em> #修改<em>hadoop</em>...
centos搭建hadoop单机模式与伪分布模式
一、安装jdk 安装过程可参考http://blog.csdn.net/tianyunzqs/article/details/78758804 二、添加用户,并设置免密登陆 1、 添加用户 1)创建用户 useradd -m <em>hadoop</em> -s /bin/bash 这条命令创建了可以登陆的 <em>hadoop</em> 用户,并使用 /bin/bash 作为shell 2)之后设置登陆密码 p
Hive之简单查询不启用MapReduce
如果你想查询某个表的某一列,Hive默认是会启用MapReduce Job来完成这个任务,如下: 01 <em>hive</em>> SELECT id, money FROM m limit 10; 02 Total MapReduce jobs = 1 03 Launching
hadoop2.7.6伪分布模式配置
1、在<em>hadoop</em>-2.7.6/目录下创建<em>hadoop</em>需要的临时目录:mkdir <em>hadoop</em>-2.7.6/tmp  #for <em>hadoop</em>.tmp.dirmkdir <em>hadoop</em>-2.7.6/tmpdir  #for mapred.local.dir2、在<em>hadoop</em>-2.7.6/etc/<em>hadoop</em>目录下修改如下配置文件内容(如果没有配置文件,自己创建一个即可):2.1、core-site.x...
hadoop安装图解
Hadoop<em>伪分布模式</em>安装图解
配置Hadoop伪分布模式并运行Wordcount示例
<em>伪分布模式</em>主要涉及一下的配置信息: 修改Hadoop的核心配置文件core-site.xml,主要是配置HDFS的地址和端口号; 修改Hadoop中HDFS的配置文件hdfs-site.xml,主要是配置replication; 修改Hadoop的MapReduce的配置文件mapred-site.xml,主要是配置JobTracker的地址和端口; 在
hive语句优化-通过groupby实现distinct
<em>hive</em>语句优化-通过groupby实现distinct
问题解决:Hive中双count(distinct)过慢的问题
这里说的双<em>count</em>(distinct)是指类似下面的语句 <em>select</em> day,<em>count</em>(distinct session_id),<em>count</em>(distinct user_id) from log a group by day; 如果要<em>执行</em>这样的语句,前提必须设置参数:set <em>hive</em>.groupby.skewindata=true; 我们可以用“空间换时间”的思路解
hadoop学习笔记(2) 伪分布模式配置
前面介绍了linux下<em>hadoop</em>的安装和简单配置,主要是独立模式的配置,所谓独立模式是指不需要运行任何守护进程(daemon),所有程序都再单个JVM上<em>执行</em>,由于在独立模式下测试和调试MapReduce程序较为方便,因此该模式适合用在开发阶段。 这里主要记录了本人配置<em>hadoop</em><em>伪分布模式</em>的过程。所谓<em>伪分布模式</em>是在单机上模拟Hadoop分布式,单机上的分布式并不是真正的分布式,而是使用java
Hadoop2.7.4单机模式/伪分布模式详细配置(Ubuntu)
修改hostname sudo vim /etc/hostname 修改静态IP sudo /etc/network/interfaces 添加以下配置 auto ens33(联网名称) ifaces ens33 inet static address 192.168.135.133 gateway 192.168.135.2 netmask 255.255.255.0重启网络:/etc/init
Hive实现wordcount词频统计
vi wc.txt zhangs love china lisi is running china is great <em>count</em>ry beijing is the capital of china ================================================================================ <em>hive</em>&gt; create tab...
Hive针对distinct的优化
<em>hive</em>针对<em>count</em>(distinct xxx)只产生一个reduce的优化。 0x00 造成的原因 由于使用了distinct,导致在map端的combine无法合并重复数据;对于这种<em>count</em>()全聚合操作时,即使设定了reduce task个数,set mapred.reduce.tasks=100;<em>hive</em>也只会启动一个reducer。这就造成了所有map端传来的数据都在一个task...
Select count(*)、Count(1)、Count(0)的区别和执行效率比较
前言       记得很早以前就有人跟我说过,在使用<em>count</em>的时候要用<em>count</em>(1)而不要用<em>count</em>(*),因为使用<em>count</em>(*)的时候会对所有的列进行扫描,相比而言<em>count</em>(1)不用扫描所有列,所以<em>count</em>(1)要快一些。当时是对这一结论深信不疑,虽然不知道为什么。今天正好有时间研究研究看<em>count</em>(*)和<em>count</em>(1)到底有没有性能差异。测试环境是SQL Server 20
hivecount(*)、count(1)、count(某字段)的区别
最近看到某公司面试题有这个,顺便查了一下。<em>count</em>(*):所有行进行统计,包括NULL行<em>count</em>(1):所有行进行统计,包括NULL行<em>count</em>(column):对column中非Null进行统计我在集群找了一个表试了一下,结果差距不是很大,因为<em>执行</em>时间会受集群资源的影响,所以看下具体的<em>执行</em>步骤先看结果,<em>count</em>(*)<em>执行</em>时间26s<em>select</em> <em>count</em>(*) from ods.baseo...
Hive执行命令时遇到的一个坑!!!
一、今天在使用Hive对数据处理时,遇到了这个问题! <em>执行</em>命令: <em>hive</em>&amp;gt; <em>select</em> distinct etl(name,region,huxing,area,chaoxiang,zhuangxiu,dianti,danPrice,sumPrice) from house where sumprice&amp;gt;=300; <em>执行</em>结束后报如下错误: Application applicati...
hadoop单机模式和伪分布模式的平台搭建
              1.安装sshsudo apt-get install openssh-server安装后可以使用如下命令登录本机ssh localhost   --会出现Are you sure wantto continue contecting(yes/no)?输入yes即可            2.对于ssh的理解ssh分为客户端和服务端一台计算机的时候输入的每条命令都是直接...
关于配置伪分布hadoop无法启动datanode的解决
首先我看查看datanode的启动日志$HADOOP_HOME/logs/              vi logs/<em>hadoop</em>-root-datanode-master.out查看datanode的启动日志 ava.io.IOException: Incompatible clusterIDs in /opt/data/<em>hadoop</em>/hdfs/data: namenode clusterID
Hadoop2.7.3单机伪分布
1. 官网:http://<em>hadoop</em>.apache.org/ 2. 下载版本<em>hadoop</em> 2.7.3(http://<em>hadoop</em>.apache.org/releases.html) 3. 预准备环境: a. Centos7 b. Java8 4. 创建目录 software :mkdir /software 5. 上传<em>hadoop</em>到software 6. tar...
Hive中count统计数量的多种使用方式
其他环境没有试,Hive上肯定是可以的。 可以在<em>count</em>里使用case when、distinct等处理,满足日常数据统计需求。 <em>select</em> pt_day, <em>count</em>(*), <em>count</em>(uid),<em>count</em>(identifier), <em>count</em>(distinct uid),<em>count</em>(distinct identifier),
Eclipse中使用Hadoop伪分布模式开发配置及简单程序示例(Linux下)
一、JDK安装、Hadoop的安装及单机模式配置具体参见博客:Hadoop安装以及<em>伪分布模式</em>搭建过程 本篇博客的OS版本及软件版本均与上述版本一致。 已安装好的JDK目录:/opt/Java/jdk1.8 已安装好的Hadoop目录:/opt/Hadoop/<em>hadoop</em>-2.8.0二、Eclipse安装下载linux版的eclipse(eclipse-jee-oxygen-R-linux-gt
Mac环境下安装Hadoop伪分布模式
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。这里讲述在Mac上安装Hadoop<em>伪分布模式</em>的过程。环境:Mac OS X 10.11 + Hadoop-2.6.51 下载官网下载Hadoop(下载链接),选择binary文件下载,source源码是需要自己编译后使用。2 安装(2.6.5版本)2.1 hdfs-site.xml将下载的文件解压,进入/etc/<em>hadoop</em>/文件夹,
hive(1.2.2)运行的一些错误(不定期更新)
<em>hive</em>安装的一些错误(不定期更新)
用Hive实现MapReduce的单词统计
一个简单的单词统计在用MapReduce来实现虽然是经典用例,但是现实起来还是比较复杂的。下面介绍如何用<em>hive</em>来实现单词统计。首先准备一个记录单词的word.txt然后在<em>hive</em>中新建一个表并将word.txt的数据导入到该表中然后运行如下的命令<em>select</em> tt.wordtxt,<em>count</em>(*) cc from ( <em>select</em> explode(split(line,' ')) as word...
Linux Crontab执行hadoop命令脚本失败
crontab调度<em>hadoop</em>命令脚本,需要添加source /etc/profile 或者 source ~/.base_profile
hive相关报错问题解决办法
1.Unable to determine Hadoop version information. '<em>hadoop</em> version' returned: 解决办法: 修改bin/<em>hive</em>, #    HADOOP_VERSION=$($HADOOP version | awk '{if (NR == 1) {print $2;}}'); HADOOP_VERSION=$($HADOOP v...
单机伪分布下的hadoop+spark 环境配置
初学<em>hadoop</em> 老师又给了spark的任务 所以有了这次环境配置   经过几天的努力总算搭建起来  现在详细说下过程 做下记录 1我是在虚拟机上安装的ubuntu  网络选择的是NAT 模式  安装好ubuntu 就进入正题了  ubuntu需要联网 不过NAT模式下不用设置网络连接 与主机共享IP 初始有网络 2开始shell Ctrl+ALT+T  因为在root 用户下操作方便 
HIVE SQL执行时候报return code 2错误解决方案
18/07/29 00:53:04 ERROR operation.Operation: Error running <em>hive</em> query: org.apache.<em>hive</em>.service.cli.HiveSQLException: Error while processing statement: FAILED: Execution Error, return code 2 from org...
Hadoop学习(十四)——hive参数、函数及案例
笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。 我的公众号为:livandata 1、命令行 语法结构 <em>hive</em> [-<em>hive</em> conf x=y]* [&...
Ubuntu16.04安装hadoop(伪分布模式)
主要参考的文章为: https://blog.csdn.net/wangjia55/article/details/53160679 https://www.cnblogs.com/87hbteo/p/7606012.html 安装版本:        Hadoop 3.0.3 64bit        java jdk:1.8.0_171  分为以下几个步骤: 1、准备阶段: 增加...
count的数量和 select * 的数量不一致
今天遇到已经怪事 需要对一个表的全部数据进行处理,但是<em>select</em> * 出来后,最后log显示只处理了75条,可是这个表里面有将近10万条数据的。 于是进行以下步骤check 1. <em>select</em> <em>count</em>(*) from a; 得到结果是 96486 条数据 2.<em>select</em> * from a; 得到 75条数据 3. s...
含有GROUP BY子句的查询中如何显示COUNT()为0的结果( SELECT语句完整的执行顺序)
含有GROUP BY子句的查询中如何显示COUNT()为0的结果 本文我们主要介绍了SQL Server数据库中在使用GROUP BY对查询出的结果进行分组时,COUNT()为0的结果无法显示的解决方法,希望能够对您有所帮助。 AD:2014WOT全球软件技术峰会北京站 课程视频发布 在SQL Server数据库查询中,为了对查询结果进行对比、分析,我们经常会用到GROUP
Hadoop大数据处理技术综合实验
实验任务这篇博客是我们一个学期作业,记录在这里,只是方便我写作和一些解决过程的记录。具体实验步骤参考:http://dblab.xmu.edu.cn/post/7499/ 任务如下: 本地数据集上传到数据仓库Hive; Hive数据分析 Hive、MySql、HBase数据互导; 利用Python/R进行数据可视化分析; 利用Apriori基于关联规则的购物篮分析。 本地数据集上传到数据仓库Hiv
hiveselect中DISTINCT的技巧和使用
以下是转载内容 单表的唯一查询用:distinct 多表的唯一查询用:group by 在使用MySQL时,有时需要查询出某个字段不重复的记录,虽然mysql提供有distinct这个关键字来过滤掉多余的重复记录只保留一条,但往往只用它来返回不重复记录的条数,而不是用它来返回不重复记录的所有值。其原因是distinct只能返回它的目标字段,而无法返回其它字段,用distinct不能解决的话,
一、hadoop2.x版本的伪分布模式安装
个人安装的是centos6.5,<em>hadoop</em>2.9.0。 准备两台虚拟机,一台作为主节点master,一台作为从节点slave1。 1、关闭防火墙,禁用selinux # service iptables status        # 查看防火墙状态 # service iptables stope        # 若开启,则关闭 # vim /etc/sysconfig/selin...
hive select * 没有查询到数据
由于我建立的是外部表 打开<em>hadoop</em>的时候不知道出于原因namenode起不来了 然后将namenode格式化以后 登上发现是外部文件内容丢失了 导致了数据表查询成功但是却没有数据 将文件重新上传一份 就能查到数据了
Hive中COUNT的高级用法(条件过滤等)
在HIVE中,除了COUNT(*)外,COUNT还可以有很多高级用法。 SELECT     type   , <em>count</em>(*)   , <em>count</em>(DISTINCT u)   , <em>count</em>(CASE WHEN plat=1 THEN u ELSE NULL END)   , <em>count</em>(DISTINCT CASE WHEN plat=1 THEN u ELSE NULL END)...
Hive学习之SELECT语句(二)
ORDER BY从句 Hive中的order by从句与SQL中的order by很相似,都支持ASC和DESC,语法格式如下: ORDER BY colName[ASC|DESC] 但Hive中的order by有一些限制。在严格模式下(<em>hive</em>.mapred.mode=strict),order by从句后面必须跟着limit从句,如果<em>hive</em>.mapred.mode= nonstric
hive 虚拟机下执行 HQL 被killed退出
背景:学习大数据,装了个虚拟机,搭载centos7的迷你,内存分配的512MB <em>hive</em>> <em>select</em> A.name,A.time     > from     > (<em>select</em> name,time,sum(<em>count</em>) from sale group by name, time) A join     > (<em>select</em> name,time,sum(<em>count</em>) from sal
hive中关于SUM(COUNT(1))的用法实践测试用例
SELECT * FROM temp.tmp_20181026 T; +------------+-----------+-----------+----------+--+ | t.classes | t.name | t.course | t.score | +------------+-----------+-----------+----------+--+ | a1 ...
Hive 操作数据库语句总结
1、创建一个表,字段之间用 \t 分隔;         <em>hive</em>>create  table  student (id  int,  name  string) row  format  delimited  fields  terminated  by '\t' ; 2、将本地一个数据提交到<em>hive</em>里去         <em>hive</em>>load data local inpat
Hive原理及查询优化(杨卓荦)
杨Introduction卓荦目前在硅谷一家公司工作,也在积极准备回国发展。2011年至2014年在阿里研究Hive。今天,我想和大家简单介绍一下Hive原理和查询优化。由于时间有限,很多内容简要介绍一下,欢迎私下多交流。Hive是构建在Hadoop上的数据仓库软件框架,支持使用SQL来读,写和管理大规模数据集合。Hive入门非常简单,功能非常强大,所以非常流行。通常来说,Hive只支持数据查询和...
hadoop本地、伪分布、真分布、HA模式实践
1、基础环境:    需要准备vmware、centos7、JDK8+、putty(ssh远程工具)、WinSCP(sftp连接工具,用于传文件到linux)、<em>hadoop</em>-2.9.1.tar   基础环境安装不做介绍,网上教程很多。安装完成后效果putty通过ssh远程: WinSCP通过SFTP远程: 2、安装jdk:    1)、安装jdk: rpm -ivh jdk-10.0.1_linu...
Spark框架学习:Spark Local模式安装、Standalone伪分布模式安装、Scala开发插件安装
Spark Local模式安装 目前Apache Spark主要支持三种分布式部署方式:分别是standalone、Spark on mesos和spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算...
hive执行任务时异常终止原因分析
异常日志如图所示,在<em>执行</em>任务快结束时,任务异常终止了,通过查看xxxx:8088/cluster页面可以发现任务已终止 根据日志分析发现,异常原因为:could not find any valid local directory for output,猜测应该由于磁盘被占满的原因导致任务无法继续进行。 查看core-site.xml配置,发现<em>hadoop</em>.tmp.dir配置路径为
Hadoop之推测执行
最近在测试环境跑任务,有一部分任务出现如下情况: 推测<em>执行</em>(Speculative Execution)是指在集群环境下运行MapReduce,可能是程序Bug,负载不均或者其他的一些问题,导致在一个JOB下的多个TASK速度不一致,比如有的任务已经完成,但是有些任务可能只跑了10%,根据木桶原理,这些任务将成为整个JOB的短板,如果集群启动了推测<em>执行</em>,这时为了最大限度的提高短板,Hadoo...
hive中使用ORDER BY报错
在<em>hive</em>中出现;例如以下的错误: Error while compiling statement: FAILED: SemanticException 19:9 In strict mode, if ORDER BY is specified, LIMIT must also be specified. Error en<em>count</em>ered near token 'id' 主要是通过在使用O...
hive-hadoop 常用命令
1.查看<em>hadoop</em>任务yarn application -list |grep 用户名 yarn application -kill application_1443009203033_866212.liunx nohup命令nohup ./label_driver.sh > /home/disk4/bi/driver_label/label_driver20150325.log 2>&1 &
关于在Hibernate里使用select count(*) 返回值的问题说明
http://blog.csdn.net/lowkeysk/article/details/8243901
实战1——Hive与JDBC示例
转自:http://www.cnblogs.com/linjiqin/arc<em>hive</em>/2013/03/07/2947848.html 在使用 JDBC 开发 Hive 程序时,  必须首先开启 Hive 的远程服务接口。使用下面命令进行开启: <em>hive</em> -service <em>hive</em>server & 1). 测试数据 userinfo.txt文件内容(每行数据之间用tab键隔开):
将MySQL数据导入hive时报错发现如下错误
报错如下 Exception in thread &quot;main&quot; java.lang.NoClassDefFoundError: org/apache/<em>hadoop</em>/<em>hive</em>/shims/ ShimLoader Caused by: java.lang.Cl...
小白在windows7下安装hadoop2.6.4(单机模式和伪分布式)
小白一只 经过几天努力 终于把<em>hadoop</em>2.6.4在window7上安装好了 特地来纪念下 因为是借助于别的教程 有些写的不是很详细  一开始是 用cygwin 来安装的 但是后面一直出这个问题  我已经下载了winutils.exe,并放在了bin目录下,环境变量什么的也设置了,就是不行,当时是分分钟想放弃了 所以对于小白来说 不太建议用cygwin来安装<em>hadoop</em>
如何将hive执行结果返回给一个变量
首先可以将<em>hive</em> sql写入python脚本 假如有如下<em>hive</em> sql: <em>hive</em>_cmd = '<em>hive</em> -e "<em>select</em> <em>count</em>(*) from hbase.routermac_sort_10;"' 一般在python中按照如下方式<em>执行</em>该<em>hive</em> sql: os.system(<em>hive</em>_cmd) 但是当我需要在程序中拿到<em>count</em>()的<em>执行</em>结果时,使用os.s
hadoop为分布
CentOS下Hadoop<em>伪分布模式</em>安装 pdf
Hadoop监控页面查看Hive的完整SQL
想看看<em>执行</em>的<em>hive</em> job提交了什么语句,有没有方法从<em>hadoop</em> job监控页面查看? 方法如下,这里看到简单的一段SQL,几乎看不出具体在<em>执行</em>什么任务。 1、点开一个application,点击Tracking URL: ApplicationMaster 或者 History(历史任务显示History), 进入到MapReduce Job job_1409xxxx,Jo
Hadoop伪分布式模式安装配置步骤
最近要升级Hadoop的版本,需要重新安装测试环境,特此记录一下安装配置步骤 O(∩_∩)O 1. 依赖软件   - Java:Hadoop 2.7及以上版本需要Java 7,之前的版本支持Java 6,本文使用Hadoop 2.6.5版本,所以安装Java 6就可以了 - ssh 2. 下载和解压Hadoop 2.1 如果服务器可以访问公网,可以<em>执行</em>以下
hive中子查询实例
Hive只支持在FROM子句中使用子查询,子查询必须有名字,并且列必须唯一:SELECT ... FROM(subquery) name ... 确认下是否一定要求列必须唯一?      建表语句: create table  tb_in_base (    id  bigint,    devid bigint,     devname string )
hadoop Hive 基本操作
1、基础操作 (1)启动 <em>hive</em> [<em>hadoop</em>@master ~]$ bin/<em>hive</em> (2)查看数据库 <em>hive</em>&gt;show databases; (3)打开默认数据库 <em>hive</em>&gt;use default; (4)显示 default 数据库中的表 <em>hive</em>&gt;show tables; (5)创建一张表 <em>hive</em>&gt; create table student(id int, name string) ; (6)显示数据库中有几张
Hive原理详解
(一) Hive基础1.1 背景• 引入原因:    – 对存在HDFS上的文件或HBase中的表进行查询时,是要手工写一堆MapReduce代码        <em>select</em> word, <em>count</em>(*) from ( <em>select</em> explode(split(sentence, ' ')) as word from article) t group by word即可完成word<em>count</em>(...
hadoop词频统计报错,没解决
17/08/21 19:57:34 INFO Configuration.deprecation: session.id is deprecated. Instead, use dfs.metrics.session-id 17/08/21 19:57:34 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTrac
Hadoop本地模式、伪分布式、完全分布式安装
准备工作:Centos 7系统、4台虚拟机(相互免密登陆)、jdk1.8、关闭防火墙、设置静态IP 1、安装<em>hadoop</em> a)下载<em>hadoop</em>-2.7.4.tar.gz b)tar开 $>cd /zdq/soft $>tar -xzvf <em>hadoop</em>-2.7.4.tar.gz -C /zdq2、配置<em>hadoop</em>环境变量vim /et
hive常见语法错误分组聚合
一、<em>hive</em>常见语法错误                                  图 1.1 当我们在用<em>hive</em>进行数据表的操作时 我们会用得到group by函数那么如图1.1所示假如按照 name 和 month 进行分组 SELECT  tl.name ,tl.month ,max(tl.amount) ASmonth_amount ,sum(tr.amount)
hive执行job时候假死,kill comman卡住解决办法
如图,<em>hive</em>提交查询的时候,在这步卡主不动假死,也不报错,log也查不出来。 查了各种办法也没解决。 最后反思 1.不借助<em>hive</em>进行分析时候,仅仅是提交job跑mr没有问题 2.到<em>hive</em>上却假死怀疑是Hive没有连接上mapreduce。一检查<em>hive</em>-env.sh果然是这样。配置<em>hive</em>-env.shHADOOP_HOME=/apps/<em>hadoop</em> export HIVE_CONF_
Hive任意命令/代码执行漏洞+渗透实例
Author: kindle Date: 2013-02-9 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的
大数据Hive 面试以及知识点
18 <em>hive</em>表关联查询,如何解决数据倾斜的问题?   倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 1)、key分布不均匀; 2)、业务数据本身的特性; 3)、建表时考虑不周; 4)、某些SQL语句本身就有数据倾斜; 如何避免:对于ke
MyEclipse.10.x.Crack 破解工具及方法图解,已解决integrity check error问题下载
首先确定你的JDK以及环境变量没有问题! 1、双击run.bat打开破解界面: / 或直接点击me_active.jar 2、Usercode随便输入,点SystemId按钮产生一个SystemId,再点Active按钮。下面会产生一些东西。 3、打开MyEclipse,MyEclipse -> Subscription Information,把上面生成的LICENSEE复制到Subscripter中,LICENSE_KEY复制到Subscription code中。就会有如下界面: 4、点Save & Activate Now按钮,弹出窗口,选择Web activat 相关下载链接:[url=//download.csdn.net/download/u012766656/6926611?utm_source=bbsseo]//download.csdn.net/download/u012766656/6926611?utm_source=bbsseo[/url]
2010之前二级C语言真题 全下载
2010之前二级C语言真题 全2010之前二级C语言真题 全2010之前二级C语言真题 全2010之前二级C语言真题 全2010之前二级C语言真题 全2010之前二级C语言真题 全2010之前二级C语言真题 全2010之前二级C语言真题 全2010之前二级C语言真题 全2010之前二级C语言真题 全2010之前二级C语言真题 全 相关下载链接:[url=//download.csdn.net/download/ning454198882/2073349?utm_source=bbsseo]//download.csdn.net/download/ning454198882/2073349?utm_source=bbsseo[/url]
物联网中PML服务器的设计和实现下载
物联网 很有用的资源 信息化产业的新兴技术 希望大家多多下载 相关下载链接:[url=//download.csdn.net/download/taoweiaijiangting/2324269?utm_source=bbsseo]//download.csdn.net/download/taoweiaijiangting/2324269?utm_source=bbsseo[/url]
文章热词 设计制作学习 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 大数据hive学习 hive大数据教程
我们是很有底线的