社区
Hadoop生态社区
帖子详情
求助!ETL流程与数据仓库的关系
weixin_43435378
2019-05-27 07:23:59
首先数据通过见到的清洗 格式化 吧数据存到 ods 层
然后 ods 层 到 dw 层 做了什么操作
dw层 到da层 做了什么操作 最后用户画像是不是在这层做的????
...全文
131
1
打赏
收藏
求助!ETL流程与数据仓库的关系
首先数据通过见到的清洗 格式化 吧数据存到 ods 层 然后 ods 层 到 dw 层 做了什么操作 dw层 到da层 做了什么操作 最后用户画像是不是在这层做的????
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
4qw
2019-05-28
打赏
举报
回复
数据到了ods时,基本上经过处理,相对而言都是有效的原数据;
到dw的过程中,会对ods中的数据做一些统计,有些是很复杂的维度统计,最后 形成事实表,
维度表等类似的表信息,这一步就是形成数据仓库,或者数据集市的过程;
之后涉及到的数据分析,数据挖掘,或者用户画像的信息都来自于dw,dw中的这些信息经过统计处理,
数据量没有那么大,同时基本上都是可用的有效数据;
至于da层应该是中mvc中的概念:dao层,属于后端开发和数据库直接连接这一层,和ETL ,数仓没关系
数据仓库
ETL
工具箱——操作
ETL
开发完成后,主要工作是执行
ETL
开发的这些过程
ETL
工具
...
ETL
...
ETL
,Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。
ETL
工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、
kettle从入门到精通 第105课
ETL
之kettle 解决api接口无返回页数和记录数的分页问题
通过设计包含初始化参数、数据校验、循环获取数据等步骤的
流程
,成功解决了可能导致死循环和内存溢出的问题。关键点包括:使用hasPage标记控制循环、动态更新请求页码、根据返回数据判断是否继续获取等。经过多次...
ETL
Cloud详解,如何实现最佳实践及问题排查
实时数据通过经过清选、转换后可以实时存储到数仓中并可立即发布成API服务GPT智能构建
流程
全面集成AIGC能力实现智能数据管道构建,用户只需要简单描述需求,系统即可全自动完成数据管道构建,大幅缩短数据变现时间批...
kettle从入门到精通 第106课
ETL
之kettle Cache数据库单表6000万+数据轻松提取
通过获取最大ID、计算分页区间、循环查询等步骤重构了数据抽取
流程
,最终成功实现数据分批迁移。方案采用左闭右开区间控制数据范围,确保数据完整性和处理效率。经连麦指导后,
求助
者成功应用该方案解决了实际问题。...
Hadoop生态社区
20,847
社区成员
4,695
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章