Hive大数据离线应用开发

杨力的博客 2023-01-13 01:15:42

课程名称	适应人群
Hive大数据离线应用开发	有一定基础，对HDFS和MapReduce有一定了解的学员。

本章将为大家解答以下问题：基于Hadoop的Hive工具的基本概念以及配置和启动。Hive的数据类型、表以及数据操作。如何用Hive进行数据查询。Hive的内置函数。如何用Hive实现电商的自动推荐。如何进行Sqoop的应用开发。Hive的UDF自定义函数介绍和应用。azkaban的介绍和实际应用。

...全文

2502 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

petblue 2020-10-08

打赏
举报

回复

买了书，用于教材，去哪里找数据啊？

JasonTomMa 2021-07-04

举报

回复

@petblue 你有hive实战的数据吗

petblue 2020-10-08

打赏
举报

回复

可以提供下数据吗？

滴滴大数据离线和实时平台架构和实践.pdf

1.1 实验介绍 4 1.2 华为云资源开通 4 1.2.1 开通 MRS 集群 4 1.2.2 开通并配置 RDS 13 1.2.3 开通 OBS 服务 18

包含video user数据

内容概要：本文档为2025年江西省大数据应用开发赛项的竞赛样题库，围绕工业互联网背景下工业大数据的应用展开，涵盖大数据平台搭建、离线数据处理、数据挖掘、实时计算、数据可视化及综合分析六大任务。参赛者需基于容器环境，使用Scala语言和Hadoop、Spark、Flink、Hudi、Kafka、ClickHouse、Redis等技术栈，完成从平台部署到数据采集、存储、处理、分析、建模预测至前端可视化的全流程操作，并对ZooKeeper选举机制、MapReduce Shuffle过程进行理论阐述，最终结合可视化结果提出设备优化建议。; 适合人群：具备一定大数据基础知识和实践经验，熟悉Scala编程、主流大数据框架及组件操作，正在备考或参与大数据类技能竞赛的高职或本科学生及技术人员。; 使用场景及目标：①掌握大数据平台（Hadoop、Spark、Hudi、Flink等）的部署与集成方法；②熟练运用Spark进行离线ETL处理与指标计算；③掌握Flink实时流处理与Kafka数据采集；④实现基于机器学习的设备状态预测与数据可视化展示；⑤提升综合解决工业大数据实际问题的能力。; 阅读建议：本样题具有较强的实战性和综合性，建议学习者按照任务顺序逐步实践，注重代码编写与平台配置细节，结合理论回答加深原理理解，并通过可视化结果反推业务洞察，全面提升大数据项目实操能力。

424页16万字广西大数据应用专题开发技术方案.docx

杨力的课程社区_NO_1

1

社区成员

115

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章