Hive进行数据比对问题，求帮助

xukunwzq 2015-06-19 12:02:30

最近项目中需要在Hadoop平台中做对账的工作，采用hive开做，容易上手，AB双方数据做数据比对的时候，准备用表连接方式来处理，这样存在问题，表连接的时候left join会存在多对多的情况，会出现A方中多条数据和B方一条数据比对成功的情况，需求如下：
1、以A方数据为主查找B方与之匹配的数据，
2、获取到多条时，取第一条，
3、且此条数据不再与A方其他数据进行比对
之前处理的方式是在db2中用存储过程来实现的，用游标遍历A放数据逐条从B方查找来处理的，现在用Hive来做的话就遇到这样的难处了

...全文

1439 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

resin_404 2017-10-19

打赏
举报

回复

两张表后边多加一个字段，加上时间戳，然后用rank（） over 这个函数就可以取按时间戳排序后的第一条了。例子如下： select * from ( select t.a,t.b,t.c,t.d,t.etl_last_dt,RANK() OVER(PARTITION BY t.a,t.b,t.c,t.d ORDER BY t.etl_last_dt DESC) RK from test_table t ) a where RK=1 希望对你有帮助

leaders_forerver 2017-08-06

打赏
举报

回复

A方中多条数据和B方1条数据匹配，先根据连接条件除重复，
然后采用left semi join 来做，

qq_29525577 2015-07-04

打赏
举报

回复

求解，上述的也求帮助呀

lxw1234_com 2015-06-24

打赏
举报

回复

Hive完全可以实现你的需求。其实你之前在DB2中相当于是笛卡尔积关联了。 Hive中当然也可以用笛卡尔积关联，但不推荐这样做。

1.Hive系统概述2.Hive安装与配置3.Hive数据模型4.Hive HQL5.Hive 常见函数6.Hive 自定义函数7.Hive2.0存储过程：HPL/SQL实践8.Hive Index 原理及使用9.Hive Update,Delete 操作说明10.Hive ORCFile,Parquet文件格式实践11.Hive 数据压缩及解决数据倾斜问题

前阵子博主遇到一个需求，因对hadoop集群进行数据迁移，数据迁移完毕后进行两个hive库的数据一致性的比对，不仅对源表数据进行比对，而且要同时使用两个集群加工相同数据，对加工后的数据进行数据一致性比对。博主已知的数据迁移方法有两种，第一种就是hadoop distcp功能来进行集群间数据的复制，那么基本就不用做源表的数据验证了，集群间数据复制失败会报错提示。第二种方法就是...

【测试数据比对】Python脚本进行数据比对欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设计，将会带来全新的写作体验；在创作中心设置你喜爱的代码高亮样式，Markdown 将代码

Hive是一个构建于Hadoop顶层的数据仓库工具某种程度上可以看作是用户编程接口，本身不存储和处理数据依赖分布式文件系统HDFS存储数据依赖分布式并行计算模型MapReduce处理数据定义了简单的类SQL 查询语言——HiveQL用户可以通过编写的HiveQL语句运行MapReduce任务是一个可以提供有效、合理、直观组织和使用数据的模型Hive的特点：采用批处理方式处理海量数据Hive需要把HiveQL语句转换成MapReduce任务进行运行；数据仓库存储的是静态数据，

目录0-前言1-TextFile2-SequenceFile3-RCFile4-ORCFile4.1-ORC相比较 RCFile 的优点4.2-ORC的基本结构4.3-ORC的数据类型4.4-ORC 的 ACID 事务的支持4.5-ORC 相关的 Hive 配置5-Parquet5.1-Parquet基本结构5.2-Parquet 的相关配置：5.3-使用Spark引擎时 Parquet 表的压缩格式配置：5.4-Parquet 和 ORC 压缩格式对比： 0-前言本文讲解 Hive 的数据存储，是 H

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章