请教：hive上，查询建表后，表记录数与查询记录数不同？

金乌儿 2015-07-27 05:06:44

各位好，我是做分析的，因为工作需要自己学习在我们的数据提供方所提供的ORACLE 和HIVE数据库中取数和做简单的数据探索，因此 SQL和HIVE SQL 都是自学尚未成才阶段。问题可能白痴，请勿见怪。

一、设定：
同一个数据表，在oracle上一份，在hive上一份。

二、目的：
将查询结果创建新表保存，语句如下：
CREATE TABLE dldffx_33401 AS SELECT * FROM dldffx t WHERE ORG_NO LIKE '33401%'

三、试验过程及结果：
1. HIVE 上：
1.1 用 SELECT COUNT(*) FROM dldffx_33401 得知，在创建的新表 dldffx_33401中，记录数是 8,626,398 个;
1.2 再看直接查询出来的子集：SELECT COUNT(*) FROM dldffx t WHERE ORG_NO LIKE '33401%' ，则结果返回为 8,626,390 个;

2. 在ORACLE上，上述两种方法的结果都是 8,626,390 个。

四、问题：
要请教的是，这个HIVE上的记录数不一致可能是什么原因呢？为什么ORACLE上会是相符的呢？

非常感谢！

...全文

510 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

Q446512799 2015-07-29

打赏
举报

回复

在dldffx 表中的数据是多少呢？难道是 8,626,398 ，oracle和hive的语句还是有点出入的，可能oracle按照条件导进去了，hive全量导进去了？

1.Hive系统概述2.Hive安装与配置3.Hive数据模型4.Hive HQL5.Hive 常见函数6.Hive 自定义函数7.Hive2.0存储过程：HPL/SQL实践8.Hive Index 原理及使用9.Hive Update,Delete 操作说明10.Hive ORCFile,Parquet文件格式实践11.Hive 数据压缩及解决数据倾斜问题

#1.Hive的介绍一.与hive有关的一些知识点的介绍 1.Hive是什么？ Hive是一个基于Hadoop的数据仓库基础工具，用于处理结构化数据。关于Hive我们需要知道的几点：（1）hive本身不提供数据存储功能，使用hdfs做数据存储（2）hive也不提供分布式计算框架，hive的核心工作就是吧sql语句翻译成mr程序。（3）hive也不提供资源调度系统，也是默认由Hadoop当...

大数据工程师(开发)面试 1.HBase和Hive都是基于Hadoop，为什么Hive查询起来非常慢，但HBase不是？ Hive是类SQL引擎，其查询都需要遍历整张表，跑MapReduce自然很慢，但HBase是一种NoSQL的列式数据库，基于Key/Value的存储格式，不需要像Hive一样遍历，自然在速度上，乃至写的性能上是相当之快的。相关参考文献 HIVE和HBASE区别 2.通过Jav...

** 大数据面试题记录* ** （一）一、如何检查namenode是否正常运行?重启namenode的命令是什么? 通过节点信息和浏览器查看，通过脚本监控 hadoop-daemon.sh start namenode hdfs-daemon.sh start namenode 二、hdfs存储机制是怎样的? 1) client端发送写文件请求，namenode检查文件是否存在，如果已存在，直接返回错误信息，否则，发送给client一些可用namenode节点 2) client将文件分块，并行存储到不同

1.org.apache.spark.SparkException: Kryo serialization failed: Buffer overflow 原因：kryo序列化缓存空间不足。解决方法：增加参数，--confspark.kryoserializer.buffer.max=2047m。 2.org.elasticsearch.hadoop.rest.EsHadoopNoN...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章