社区
数据仓库
帖子详情
数仓
2539623892@qq.com
2021-02-01 12:17:06
我想求教哥们,我现在是做ETL的,也做过一些bi报表,但是那都是一些sql+业务,我想提升自己,想转型数仓,请问数仓的话,需要会Hadoop、spark这些么?数仓是不是主要用hql+业务+一些shell脚本就够了Hadoop、spark只需要知道原理就行了,(比如shuffle等等)做数仓的工作不用会写java代码、Scala代码去写spark streaming啥的吧,主要用的最多的是spark sql、flink sql比较多
...全文
103
回复
打赏
收藏
数仓
我想求教哥们,我现在是做ETL的,也做过一些bi报表,但是那都是一些sql+业务,我想提升自己,想转型数仓,请问数仓的话,需要会Hadoop、spark这些么?数仓是不是主要用hql+业务+一些shell脚本就够了Hadoop、spark只需要知道原理就行了,(比如shuffle等等)做数仓的工作不用会写java代码、Scala代码去写spark streaming啥的吧,主要用的最多的是spark sql、flink sql比较多
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
京东零售流量
数仓
架构建设
本次分享主要从三个方面介绍京东流量场下的数据处理方案,同时也会结合京东实际场景案例,介绍京东在流量场下的一些数据应用和实践。 全文会围绕以下三方面内容展开: 京东零售流量
数仓
架构 京东零售场景的数据处理 数据处理架构未来探索 1. 京东零售——流量简介 ① 什么是流量? 简单来说,流量就是用户作用在京东页面上,产生一系列行为数据的集合。 ② 流量数据的来源 数据来源主要是移动端和PC端,以及线下店、外部采买、合作商的数据等。 这些数据是如何流转到
数仓
的呢? 2. 京东零售——流量数据处理架构 由架构图可以看出,对不同的终端采取不同的采集模式;例如,对APP原生页面采取SDK的采集模式,对于PC、H5页面是JS采集,数据采集后按照实时和离线双写,离线直接写到CFS分布式文件系统中,每小时从CFS拉取数据文件,同时对数据文件大小、采集ip进行监控,防止数据丢失;实时是以白名单的方式动态配置,写到kafka中,最后将数据入仓。
数仓
离线计算(开发文档+工具+源代码)
主要是再阿里云上进行的
数仓
离线计算: 1)学习搭建一个数据仓库的过程,理解数据在整个
数仓
架构的从采集、存储、计算、 输出、展示的整个业务流程。 2)整个
数仓
体系完全搭建在阿里云架构上,理解并学会运用各个服务组件,了解各个 组件之间如何配合联动。 项目需求分析 1)采集埋点日志数据 2)采集业务数据库中数据 3)数据仓库的搭建(用户行为
数仓
、业务
数仓
) 4)分析统计业务指标 5)对结果进行可视化展示
构建实时
数仓
的流批一体ETL工具-Streamsets
本课程来自一线项目(实时
数仓
建设)。创建实时
数仓
,是当前很多公司的需求,如何搭建实时
数仓
的架构?实时
数仓
需要有实时同步数据的ETL工具。在架构选型时,调研了很多ETL工具,包括Kettle、Azkaban和Streamsets,最终选择了Streamsets。如果您是
数仓
架构师、大数据开发工程师,本课程对您来说,非常有益。课程全程以实战的方式进行,每节课一到两个例子,并且会将创建实时
数仓
过程中的经验和教训穿插到例子讲解中,欢迎大家一起讨论实时
数仓
架构设计!
尚gg大数据项目实战电商
数仓
系统开发教程.txt
01_
数仓
项目介绍.avi4 b4 Q* Q8 Z0 Y) C6 O! w 02_
数仓
采集_用户行为采集课程介绍.avi8 \7 f3 O. c- {: v# W& V$ Y& b 03_
数仓
采集_
数仓
的概念.avi8 Z# X* q/ c; }3 A* [ T 04_
数仓
采集_项目需求.avi6 B8 n s0 h! M4 X# j! |0 ` 05_
数仓
采集_项目技术选型.avi8 [% N% W, U# y5 s 06_
数仓
采集_系统数据流程设计.avi8 N: L Y6 D6 y 07_
数仓
采集_框架版本选型.avi, k8 c& `! j& B 08_
数仓
采集_框架版本具体型号.avi1 x& Q/ D. O' l 09_
数仓
采集_服务器选型.avi3 _: b. H. i! a; O8 V3 A7 [1 s0 t; B 100_业务
数仓
_DWS层之用户行为宽表.avi* o! `2 N, _5 u& a$ W 101_业务
数仓
_需求九:GMV成交总额.avi; x4 H& X( _' I8 L7 r* n3 I/ y 102_业务
数仓
_需求十:ADS层之新增用户占日活跃用户比率.avi 103_业务
数仓
_需求十一:ADS层之用户行为漏斗分析.avi 104_业务
数仓
_用户购买商品明细表(宽表).avi 105_业务
数仓
_需求十二:ADS层品牌复购率.avi 106_业务
数仓
_需求十三:求每个等级的用户对应的复购率前十的商品排行(学生分享).avi6 e) h" C# G2 X+ z6 B 107_业务
数仓
_数据可视化.avi! @5 r5 g- n0 f, J3 l 108_业务
数仓
_Azkaban安装.avi( r9 z2 L3 \% G' k9 [: t9 K 109_业务
数仓
_GMV指标获取的全调度流程.avi& O, S. M2 Q# o 10_
数仓
采集_集群资源规划设计.avi 110_业务
数仓
_拉链表理论.avi 111_业务
数仓
_拉链表制作.avi+ k: N4 e; P4 X; ?( i' O0 {0 u. M9 Y 112_业务
数仓
_业务
数仓
项目总结.avi/ {1 S. ^* Y" b# M) | 113_业务
数仓
_即席
数仓
课程介绍.avi 114_即席
数仓
_Presto简介.avi+ r. E# z! Z4 t% o+ r8 }7 Q 115_即席
数仓
_Presto安装及使用.avi 116_即席
数仓
_Presto优化.avi% @4 x# m3 } G# h 117_即席
数仓
_Druid概念、特点、场景.avi 118_即席
数仓
_Druid对比其他框架.avi7 C4 m1 z" }# n% h( F 119_即席
数仓
_Druid框架原理.avi 11_
数仓
采集_测试集群服务器规划.avi* X" H5 S4 M1 C0 j" w 120_即席
数仓
_Druid数据结构.avi, V& D, ]# l" a0 R1 ?) n; L f 121_即席
数仓
_Druid安装.avi 122_面试题_总体架构.avi! c' O1 I8 T6 n Q 123_面试题_技术框架.avi 124_面试题_用户行为、业务数据、即席查询.avi4 N2 j# j6 P% O" a 125_面试题_开发经验.avi3 b$ C' k; H" B2 p# c( \ 126_CDH
数仓
_课程介绍.avi9 _. V/ m% J5 ^* s/ g+ f; g( s 127_CDH
数仓
_CM简介及架构.avi8 ]' ]* B! X' j. Z9 [ 128_CDH
数仓
_CM安装环境准备.avi, Q8 k8 x/ j3 v 129_CDH
数仓
_CM、Hadoop、Zookeeper安装.avi7 z) @! o) G0 @4 s; J 12_
数仓
采集_埋点数据基本格式.avi 130_CDH
数仓
_采集Flume的安装.avi# V L4 F& x1 t* }( Z8 F' o9 g' ` 131_CDH
数仓
_Kafka安装.avi" N8 o- i b/ W) o3 j8 j/ a/ g 132_CDH
数仓
_测试Flume和Kafka安装.avi 133_CDH
数仓
_消费Flume配置完成.avi6 ?$ m3 H4 m; C# ^$ j 134_CDH
数仓
_Hive、Oozie、Hue安装.avi# ]& Y, M2 |) A( o# Y( b& w 135_CDH
数仓
_用户行为
数仓
ODS层导数据.avi 136_CDH
数仓
_用户行为
数仓
完结.avi. F4 z* v& a; q" }% V* \ 137_CDH
数仓
_业务数据生成.avi7 W7 \$ ~$ n% w2 N, {( A; l! }8 K: S 138_CDH
数仓
_业务
数仓
完结.avi! N7 f. d0 U2 N( }' w) P- b" S 139_CDH
数仓
_Oozie执行前准备.avi 13_
数仓
采集_事件日志数据(上).avi2 S' ` H& ^& S3 a1 X 140_CDH
数仓
_Oozie任务编写及运行.avi 141_CDH
数仓
_即席查询
数仓
搭建Impala.avi 142_CDH
数仓
_Spark安装及总结.avi 14_
数仓
采集_事件日志数据(下).avi 15_
数仓
采集_日志生成代码编写.avi4 |* G) Z3 J4 ]/ b9 z$ @ 16_
数仓
采集_Logback日志打印控制.avi 17_
数仓
采集_服务器准备.avi 18_
数仓
采集_Hadoop安装.avi 19_
数仓
采集_项目经验之HDFS多目录配置.avi 20_
数仓
采集_项目经验之支持LZO压缩配置.avi j3 Q& D8 m* G9 R Q$ G 21_
数仓
采集_项目经验之基准测试.avi 22_
数仓
采集_项目经验之HDFS参数调优.avi; F" t) F) H7 W' {& L% n3 H ~7 s 23_
数仓
采集_Zookeeper安装.avi6 c1 v9 x4 \% K5 D. \0 M 24_
数仓
采集_项目经验之ZK集群启动停止脚本.avi( i1 P# ^( y1 Q- a 25_
数仓
采集_生成测试日志.avi 26_
数仓
采集_集群日志生成启动脚本.avi 27_
数仓
采集_集群时间同步修改脚本.avi, n2 a/ j1 @) t* d w 28_
数仓
采集_集群所有进程查看脚本.avi 29_
数仓
采集_每日回顾.avi; R" Y P2 X, E/ [+ B' j# ~& K. e 30_
数仓
采集_日志采集Flume安装.avi* V0 |0 U7 o- @* R; w) M 31_
数仓
采集_Flume组件及配置.avi 32_
数仓
采集_日志采集Flume配置分析.avi U6 j% Q4 F$ T6 U5 ^ 33_
数仓
采集_ETL拦截器.avi 34_
数仓
采集_分类型拦截器.avi! b5 ^. a8 ^; }$ x8 z) l2 U3 }" p 35_
数仓
采集_日志采集Flume启动停止脚本.avi2 ~/ r- J: h$ U, q/ e# e7 k% M 36_
数仓
采集_Kafka集群安装.avi3 L6 `7 F& o/ U6 F" U5 U 37_
数仓
采集_Kafka集群启动停止脚本.avi 38_
数仓
采集_Kafka Manager安装及脚本.avi& h9 z' v' g0 ^. }0 j 39_
数仓
采集_项目经验之Kafka压力测试.avi7 ~8 m+ w$ q/ G$ ?- _- K 40_
数仓
采集_项目经验之Kafka机器数量计算.avi 41_
数仓
采集_消费Kafka数据Flume.avi 42_
数仓
采集_项目经验之Flume内存优化.avi; q3 Q6 E! I, d7 n& k# {# B6 K 43_
数仓
采集_项目经验之Flume组件.avi- S+ J+ s/ {5 S0 d 44_
数仓
采集_采集通道启动停止脚本.avi! Q; X6 }4 C" g. f 45_
数仓
采集_调试经验.avi! P; q2 w N1 c i5 Z' c; i" i' O- x 46_
数仓
采集_面试题(Linux、Shell、Hadoop).avi2 R" A6 R7 D' p9 h( i. \ I" F9 w 47_
数仓
采集_面试题(Flume、Kafka).avi& A1 w0 W) S1 ~# i& n, } ~6 o( b& o 48_用户行为
数仓
_每日回顾.avi% U( @. v7 D* C* B W J 49_用户行为
数仓
_用户行为
数仓
课程介绍.avi 50_用户行为
数仓
_为什么要分层.avi! J- C* F* K' R* l 51_用户行为
数仓
_
数仓
分层.avi4 W _. ]: j5 U; l$ Q9 l. Q [/ u 52_用户行为
数仓
_数据集市与数据仓库概念.avi5 U5 c# e( Y8 B% c 53_用户行为
数仓
_
数仓
命名规范.avi 54_用户行为
数仓
_Hive&MySQL;安装.avi 55_用户行为
数仓
_Hive运行引擎Tez.avi! L# \% m0 s- F; A" q 56_用户行为
数仓
_项目经验之元数据备份.avi 57_用户行为
数仓
_ODS层启动日志和事件日志表创建.avi 58_用户行为
数仓
_ODS层加载数据脚本.avi' J8 ^- I/ b5 O3 Y) @9 a- h 59_用户行为
数仓
_DWD层启动日志建表及导入数据.avi9 h3 [. T0 F1 ~6 s! i/ J 60_ 用户行为
数仓
_DWD层启动表加载数据脚本.avi$ \1 Z0 Z/ m; d: F+ B5 u$ c 61_用户行为
数仓
_DWD层事件基础明细表创建.avi; Y& i+ U7 S6 P" X) T3 n! V 62_用户行为
数仓
_自定义UDF函数(解析公共字段).avi7 Q/ i) X8 O6 S0 M( V' m- ]- M 63_用户行为
数仓
_自定义UDTF函数(解析事件日志基础明细表).avi 64_用户行为
数仓
_DWD层数据解析脚本.avi 65_用户行为
数仓
_DWD层事件表加载数据脚本.avi 66_用户行为
数仓
_今日回顾.avi* e9 W+ P$ {5 ?! x9 [- e5 ]# a 67_用户行为
数仓
_业务术语.avi 68_用户行为
数仓
_日期的系统函数.avi 69_用户行为
数仓
_每日活跃设备明细.avi 70_用户行为
数仓
_每周活跃设备明细.avi 71_用户行为
数仓
_每月活跃设备明细.avi 72_用户行为
数仓
_DWS层加载数据脚本.avi- i* h$ d' Q7 M1 G0 ?% f 73_用户行为
数仓
_需求一:ADS层日活、周活、月活用户数.avi- I- Q* u3 n; v. n, T 74_用户行为
数仓
_每日新增设备明细表.avi/ B# |; {' c4 y6 y9 \2 r( i 75_用户行为
数仓
_需求二:ADS层每日新增设备表.avi 76_用户行为
数仓
_用户留存分析.avi 77_用户行为
数仓
_1、2、3、n日留存用户明细.avi v. ^5 Q1 \ `9 V4 Q 78_用户行为
数仓
_需求三:ADS层留存用户和留存比率.avi 79_用户行为
数仓
_新数据准备.avi 80_用户行为
数仓
_需求四:沉默用户.avi 81_用户行为
数仓
_需求五:本周回流用户数.avi 82_用户行为
数仓
_需求六:流失用户.avi2 x0 _( B( `, z4 j$ |5 S2 Z4 T- e% R) ] 83_用户行为
数仓
_需求七:最近连续3周活跃用户数.avi 84_用户行为
数仓
_需求八:最近七天内连续三天活跃用户数.avi- C- l" J O8 v3 x- J$ r 85_用户行为
数仓
_用户行为
数仓
业务总结.avi- V4 n, x9 B* A( P6 n/ e! E! U 86_用户行为
数仓
_Hive企业面试题总结.avi3 l9 J8 F2 t0 p& S! O! ^ 87_业务
数仓
_业务
数仓
课程介绍.avi 88_业务
数仓
_电商业务与数据结构简介.avi 89_业务
数仓
_表的分类.avi# X. Q* ~# f7 F P' @; i+ z 90_业务
数仓
_同步策略.avi; k0 r$ A: b9 E) @1 W 91_业务
数仓
_范式理论.avi5 ~2 z+ A' F+ N- J" S% r 92_业务
数仓
_雪花模型、星型模型和星座模型.avi 93_业务
数仓
_配置Hadoop支持Snappy压缩.avi 94_业务
数仓
_业务数据生成.avi 95_业务
数仓
_Sqoop安装及参数.avi% s/ l0 E. R( Y9 s, h3 k 96_业务
数仓
_Sqoop导入数据.avi4 {8 ~! a8 o4 `" y: p5 {1 ^ 97_业务
数仓
_ODS层建表及数据导入.avi 98_业务
数仓
_DWD层建表及导入数据.avi 99_业务
数仓
_需求讲解.avi7 X6 q, I3 Y+ F: N8 h 源码笔记资料.rar0 W
DOE大型离线
数仓
与用户画像系统
分享离线
数仓
课程——《DOE大型离线
数仓
与用户画像系统》,2022年8月完结新课,一共19天的课程,提供课程配套的源码+文档下载!! DOE大型离线
数仓
与用户画像系统课程将带领大家从零搭建一个完整的大数据
数仓
系统 DOE大型离线
数仓
与用户画像系统课程涵盖数据采集,数据ETL,
数仓
分层开发,报表开发,OLAP查询全流程; 涵盖元数据管理,数据质量管理,数据建模方法论等数据治理实战内容; 包含行为日志数据域,业务数据域的全域数据处理实战; 很多大数据技术学员,都通过本项目课程成功拿到入行的高起点offer!
数据仓库
7,388
社区成员
6,742
社区内容
发帖
与我相关
我的任务
数据仓库
其他数据库开发 数据仓库
复制链接
扫一扫
分享
社区描述
其他数据库开发 数据仓库
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章