Hive面试题，求高手帮忙

头疼 2013-04-03 06:07:58

有一张很大的表：TRLOG
该表大概有2T左右
TRLOG：
CREATE TABLE TRLOG
(PLATFORM string,
USER_ID int,
CLICK_TIME string,
CLICK_URL string)
row format delimited
fields terminated by '\t';

数据：
PLATFORM USER_ID CLICK_TIME CLICK_URL
WEB 12332321 2013-03-21 13:48:31.324 /home/
WEB 12332321 2013-03-21 13:48:32.954 /selectcat/er/
WEB 12332321 2013-03-21 13:48:46.365 /er/viewad/12.html
WEB 12332321 2013-03-21 13:48:53.651 /er/viewad/13.html
WEB 12332321 2013-03-21 13:49:13.435 /er/viewad/24.html
WEB 12332321 2013-03-21 13:49:35.876 /selectcat/che/
WEB 12332321 2013-03-21 13:49:56.398 /che/viewad/93.html
WEB 12332321 2013-03-21 13:50:03.143 /che/viewad/10.html
WEB 12332321 2013-03-21 13:50:34.265 /home/
WAP 32483923 2013-03-21 23:58:41.123 /m/home/
WAP 32483923 2013-03-21 23:59:16.123 /m/selectcat/fang/
WAP 32483923 2013-03-21 23:59:45.123 /m/fang/33.html
WAP 32483923 2013-03-22 00:00:23.984 /m/fang/54.html
WAP 32483923 2013-03-22 00:00:54.043 /m/selectcat/er/
WAP 32483923 2013-03-22 00:01:16.576 /m/er/49.html
…… …… …… ……

需要把上述数据处理为如下结构的表ALLOG：
CREATE TABLE ALLOG
(PLATFORM string,
USER_ID int,
SEQ int,
FROM_URL string,
TO_URL string)
row format delimited
fields terminated by '\t';

整理后的数据结构：
PLATFORM USER_ID SEQ FROM_URL TO_URL
WEB 12332321 1 NULL /home/
WEB 12332321 2 /home/ /selectcat/er/
WEB 12332321 3 /selectcat/er/ /er/viewad/12.html
WEB 12332321 4 /er/viewad/12.html /er/viewad/13.html
WEB 12332321 5 /er/viewad/13.html /er/viewad/24.html
WEB 12332321 6 /er/viewad/24.html /selectcat/che/
WEB 12332321 7 /selectcat/che/ /che/viewad/93.html
WEB 12332321 8 /che/viewad/93.html /che/viewad/10.html
WEB 12332321 9 /che/viewad/10.html /home/
WAP 32483923 1 NULL /m/home/
WAP 32483923 2 /m/home/ /m/selectcat/fang/
WAP 32483923 3 /m/selectcat/fang/ /m/fang/33.html
WAP 32483923 4 /m/fang/33.html /m/fang/54.html
WAP 32483923 5 /m/fang/54.html /m/selectcat/er/
WAP 32483923 6 /m/selectcat/er/ /m/er/49.html
…… …… …… ……
PLATFORM和USER_ID还是代表平台和用户ID；SEQ字段代表用户按时间排序后的访问顺序，FROM_URL和TO_URL分别代表用户从哪一页跳转到哪一页。对于某个平台上某个用户的第一条访问记录，其FROM_URL是NULL（空值）。

面试官说需要用两种办法做出来：
1、实现一个能加速上述处理过程的Hive Generic UDF，并给出使用此UDF实现ETL过程的Hive SQL
2、实现基于纯Hive SQL的ETL过程，从TRLOG表生成ALLOG表；（结果是一套SQL）

我的问题是这个UDF应该怎么写
还有，第二题怎么做啊，完全没有方向

等高手帮忙

...全文

2246 9 打赏收藏转发到动态举报

写回复

用AI写文章

9 条回复

切换为时间正序

请发表友善的回复…

发表回复

bush8310 2014-06-04

打赏
举报

新手在晕。。。

fvn4edal 2014-01-13

打赏
举报

第一个写法在hive-0.7.1上面运行有问题，估计是row_number的bug，用 select platform, user_id, row_number(user_id),click_time,click_url from trlog group by platform, user_id, click_time,click_url; 代替 select *,row_number(user_id)seq from trlog结果正确。在hive-0.10上运行成功。大牛的第二种方法简直可以当教科书范例了，佩服！！

头疼 2013-04-03

打赏
举报

引用 6 楼 tntzbzc 的回复:

引用 5 楼 u010134582 的回复: 第一题貌似解决了，但有一点不明白T1\T2既然已经有了row_number(user_id)seq 在最外层还要套个row_number(user_id)seq？还有第二题能解决吗，不用管效率的，只要能跑通就行第一题中的RN貌似是HIVE转译SQL的BUG，你可以把外层的ROW_NUMBER去掉，用T1的SEQ，就能发现问题了。具体……

太强了，第二个也能跑起来希望能看到其他答案出现，谢谢你了

撸大湿 2013-04-03

打赏
举报

引用 5 楼 u010134582 的回复:

第一题貌似解决了，但有一点不明白T1\T2既然已经有了row_number(user_id)seq 在最外层还要套个row_number(user_id)seq？还有第二题能解决吗，不用管效率的，只要能跑通就行

第一题中的RN貌似是HIVE转译SQL的BUG，你可以把外层的ROW_NUMBER去掉，用T1的SEQ，就能发现问题了。具体情况还有待分析，有兴趣可以去国外社区查查相关的BUG LIST。第二题：


INSERT OVERWRITE TABLE ALLOG
SELECT t1.platform,t1.user_id,t1.seq,t2.click_url FROM_URL,t1.click_url TO_URL FROM
(SELECT platform,user_id,click_time,click_url,count(1) seq FROM (SELECT a.*,b.click_time click_time1,b.click_url click_url2  FROM trlog a left outer join trlog b on a.user_id = b.user_id)t WHERE click_time>=click_time1 GROUP BY platform,user_id,click_time,click_url)t1
LEFT OUTER JOIN
(SELECT platform,user_id,click_time,click_url,count(1) seq FROM (SELECT a.*,b.click_time click_time1,b.click_url click_url2  FROM trlog a left outer join trlog b on a.user_id = b.user_id)t WHERE click_time>=click_time1 GROUP BY platform,user_id,click_time,click_url )t2 
on t1.user_id = t2.user_id and t1.seq = t2.seq + 1;

这个完全没有效率可言，MapReduce JOB最少要跑5次，做实验还行，跑生产环境就免了。还不如自己写个JAVA版的MapReduce呢凑活着用吧

头疼 2013-04-03

打赏
举报

第一题貌似解决了，但有一点不明白T1\T2既然已经有了row_number(user_id)seq 在最外层还要套个row_number(user_id)seq？还有第二题能解决吗，不用管效率的，只要能跑通就行

撸大湿 2013-04-03

打赏
举报

给你个JAVA写的RowNumber方法


public class RowNumber extends org.apache.hadoop.hive.ql.exec.UDF {

	private static int MAX_VALUE = 50;
	private static String comparedColumn[] = new String[MAX_VALUE];
	private static int rowNum = 1;

	public int evaluate(Object... args) {
		String columnValue[] = new String[args.length];
		for (int i = 0; i < args.length; i++)
			columnValue[i] = args[i].toString();
		if (rowNum == 1)
		{

			for (int i = 0; i < columnValue.length; i++)
				comparedColumn[i] = columnValue[i];
		}

		for (int i = 0; i < columnValue.length; i++)
		{

			if (!comparedColumn[i].equals(columnValue[i]))
			{
				for (int j = 0; j < columnValue.length; j++)
				{
					comparedColumn[j] = columnValue[j];
				}
				rowNum = 1;
				return rowNum++;
			}
		}
		return rowNum++;
	}
}

把这个JAVA打包，编译成JAR包，比如RowNumber.jar。这个你总会吧~~~ 然后放到HIVE的机器上在HIVE SHELL里执行下面两条语句：

add jar /root/RowNumber.jar; 
#把RowNumber.jar加载到HIVE的CLASSPATH中
create temporary function row_number as 'RowNumber';
#在HIVE里创建一个新函数，叫row_number ，引用的CLASS 就是JAVA代码里的RowNumber

提示成功后，执行下面这条HIVE SQL


#INSERT OVERWRITE TABLE ALLOG 如果要写入ALLOG表，可以把注释去掉
SELECT t1.platform,t1.user_id,row_number(t1.user_id)seq,t2.click_url FROM_URL,t1.click_url TO_URL FROM
(select *,row_number(user_id)seq from trlog)t1
LEFT OUTER JOIN
(select *,row_number(user_id)seq from trlog)t2 
on t1.user_id = t2.user_id and t1.seq = t2.seq + 1;

LZ，你不会是一边面试，一边在网上求助吧

头疼 2013-04-03

打赏
举报

引用 2 楼 u010134582 的回复:

引用 1 楼 tntzbzc 的回复: UDF简单，只要自定义一个ROWNUMBER方法，加载到HIVE中就能出结果了。 tntzbzc ，我是HADOOP新手，能解释的详细点吗，最好有实例代码引用 1 楼 tntzbzc 的回复: 这第二题有点变态，既然能用UDF，为啥还要用纯HIVE SQL做呢，性能很差的。有办法做吗，求高手教我。

还有，面试官说，第一题效率一定要高，因为表有2TB 第二题无所谓，只要能用HIVE SQL实现就行

头疼 2013-04-03

打赏
举报

引用 1 楼 tntzbzc 的回复:

UDF简单，只要自定义一个ROWNUMBER方法，加载到HIVE中就能出结果了。

tntzbzc ，我是HADOOP新手，能解释的详细点吗，最好有实例代码

引用 1 楼 tntzbzc 的回复:

这第二题有点变态，既然能用UDF，为啥还要用纯HIVE SQL做呢，性能很差的。

有办法做吗，求高手教我。

撸大湿 2013-04-03

打赏
举报

引用楼主 u010134582 的回复:

有一张很大的表：TRLOG 该表大概有2T左右 TRLOG： CREATE TABLE TRLOG (PLATFORM string, USER_ID int, CLICK_TIME string, CLICK_URL string) row format delimited fields terminated by '\t'; 数据： PLAT……

这题目咋似曾相识 UDF简单，只要自定义一个ROWNUMBER方法，加载到HIVE中就能出结果了。这第二题有点变态，既然能用UDF，为啥还要用纯HIVE SQL做呢，性能很差的。

前言我的一个朋友，开发四年了，没跳过槽，四年时间也不过是从最开始的10K涨到了15K，经常和我吐槽工资低。去年8月份左右开始了他“骑驴找马”的行动，从各种地方找学习资料、刷面试题。值得庆幸的是，他出去找工作时疫情还不严重，异常顺利的面进了蚂蚁，薪资更是翻了几倍。现在让我好生羡慕，于是找他要了他刷了至少七遍以上的面试题，特地分享给大家学习：这里就不过过多赘述了，直接进入正文！面试失败之后在这之后的很长一段时间后，他没敢再去面试，觉得自己太丢人、技术太差不敢去谈论技术话题。后来他渐渐开始看网上的文章，知

Spring无论在Java生态系统，还是在就业市场，是绝对的王者。大厂面试出镜率之高，投产规模之广，无出其右。随着技术的发展，Spring 从往日的 IoC 框架，已发展成 Cloud Native 基础设施，衍生出大量 Spring 技术栈，如大家熟知的 Spring Boot、Spring Cloud 和 Spring Security 等。

Java架构学习技术内容包含有：Spring，Dubbo，MyBatis, RPC, 源码分析，高并发、高性能、分布式,性能优化，微服务高级架构开发等等。还有Java核心知识点+全套架构师学习资料和视频+一线大厂面试宝典+面试简历模板可以领取+阿里美团网易腾讯小米爱奇艺快手哔哩哔哩面试题+Spring源码合集+Java架构实战电子书+2021年最新大厂面试题。哔哩面试题+Spring源码合集+Java架构实战电子书+2021年最新大厂面试题。

本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容，并通过互联网广告和物流行业案例分析，展示其实际应用。具有专业性、可操作性和参考价值。

请大家广而告之，冲鸭！#3.16蚂蚁笔试# #蚂蚁2024暑期实习#哎，很烦啊，第一次做综合性的笔试，唉哟，我以为编程之后的选做也是大题，第三道没咋想就丢了，剩了35分钟跑出去做选做。选择题：数据结构和语言基础都做出来了，框架啥的都是蒙的😂编程题：第一题不会，直接0第二题正常拿满第三题，考虑到操作i，j是对一个减2一个加2，因此总和保持不变。春招到现在一个消息都没有，狠狠焦虑了牛油们😢前几天去听了中国银行陕西省分行的宣讲会，省分hr一顿乱吹，说了一大堆综合服务岗和营销服务岗😰，我被成功洗脑，想去。