Hadoop第15天-05.join-reduce端连接2

十八掌教育 2023-01-12 22:38:36

课时名称	课时知识点
Hadoop第15天-05.join-reduce端连接2

...全文

158 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

本课程讲解了Hadoop中的全排序、二次排序及Map端和Reduce端的Join技术，通过实例演示如何处理大数据环境下的排序与连接操作。

本文深入探讨MapReduce的高级特性，包括分区、排序、计数器、Combiner使用，以及shuffle过程中的优化策略。通过上网流量统计、数据排序、自定义计数器等实战案例，讲解MapReduce在大规模数据处理中的应用技巧。

本文介绍了Hive中数据处理的方法，包括去重操作、合理设置Reduce数以优化性能，以及通过Hive查询实现连续登录天数分析和设备异常检测。详细步骤涵盖了从数据预处理到异常值识别的全过程，利用窗口函数和时间差计算找出可能的设备异常情况。

本文围绕Hive调优展开，介绍了数据压缩、存储、fetch抓取、本地模式等多种调优方式。如开启map输出阶段压缩可减少数据传输量，fetch抓取能不走MR就不走。还提及join优化、列裁剪、分区裁剪等操作，以及调整map和reduce数量、并行执行等策略，以提升Hive执行效率。

本文围绕Hive展开，介绍了官方配置文档、命令和参数配置，包括参数设置范围与优先级。还阐述了数据压缩、存储，以及fetch抓取、本地模式等多种操作。同时针对join、group by等操作给出优化方案，如解决数据倾斜、调整map和reduce数量等，最后介绍了执行计划explain的使用。

徐培成的课程社区_NO_1

1

社区成员

469

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章