Hive大数据离线应用开发

杨力的博客 2023-01-13 01:15:42

课程名称适应人群
Hive大数据离线应用开发有一定基础,对HDFS和MapReduce有一定了解的学员。

本章将为大家解答以下问题:基于Hadoop的Hive工具的基本概念以及配置和启动。Hive的数据类型、表以及数据操作。如何用Hive进行数据查询。Hive的内置函数。如何用Hive实现电商的自动推荐。如何进行Sqoop的应用开发。Hive的UDF自定义函数介绍和应用。azkaban的介绍和实际应用。



...全文
2502 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
petblue 2020-10-08
  • 打赏
  • 举报
回复
买了书,用于教材,去哪里找数据啊?
JasonTomMa 2021-07-04
  • 举报
回复
@petblue 你有hive实战的数据吗
petblue 2020-10-08
  • 打赏
  • 举报
回复
可以提供下数据吗?
内容概要:本文档为2025年江西省大数据应用开发赛项的竞赛样题库,围绕工业互联网背景下工业大数据的应用展开,涵盖大数据平台搭建、离线数据处理、数据挖掘、实时计算、数据可视化及综合分析六大任务。参赛者需基于容器环境,使用Scala语言和Hadoop、Spark、Flink、Hudi、Kafka、ClickHouse、Redis等技术栈,完成从平台部署到数据采集、存储、处理、分析、建模预测至前端可视化的全流程操作,并对ZooKeeper选举机制、MapReduce Shuffle过程进行理论阐述,最终结合可视化结果提出设备优化建议。; 适合人群:具备一定大数据基础知识和实践经验,熟悉Scala编程、主流大数据框架及组件操作,正在备考或参与大数据类技能竞赛的高职或本科学生及技术人员。; 使用场景及目标:①掌握大数据平台(Hadoop、Spark、Hudi、Flink等)的部署与集成方法;②熟练运用Spark进行离线ETL处理与指标计算;③掌握Flink实时流处理与Kafka数据采集;④实现基于机器学习的设备状态预测与数据可视化展示;⑤提升综合解决工业大数据实际问题的能力。; 阅读建议:本样题具有较强的实战性和综合性,建议学习者按照任务顺序逐步实践,注重代码编写与平台配置细节,结合理论回答加深原理理解,并通过可视化结果反推业务洞察,全面提升大数据项目实操能力。

1

社区成员

发帖
与我相关
我的任务
社区描述
杨 力,原北大青鸟学术部经理兼教学总监,中信国安创客霸王课特聘高级讲师,现任北京兄弟连IT教育大数据专家级讲师,一直从事大数据方向,是大数据领域专家,资深顾问,致力于大数据技术的推广与普及,拥有Apache Hadoop、Oracle OCM等多项产品的技术认证证书。曾创立国内首家大数据校企合作大数据实验室平台,现已推广至全国高校,助力高校大数据学科的建设和研究,对国内大中型企业的信息系统设计与实施有丰富的实践经验。曾在一线任职新奥集团大数据平台首席架构师,京东万象大数据平台缔造人之一,二六三网络通信反垃圾邮件系统数据平台项目经理、中信银行网银数据平台技术经理等要职。
社区管理员
  • 杨力的博客
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧