社区
数据仓库
帖子详情
大家在做ETL时候使用什么工具?
yorgo
2002-04-11 04:43:48
不会都是写角本吧
事实表中很多都是外键,那些int型的ID怎么确定呀
脚本写得很长,很费劲儿
...全文
281
15
打赏
收藏
大家在做ETL时候使用什么工具?
不会都是写角本吧 事实表中很多都是外键,那些int型的ID怎么确定呀 脚本写得很长,很费劲儿
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
15 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
yorgo
2002-04-16
打赏
举报
回复
嗯,我已经有些体会了,目前在欢快的使用DTS. hehe
jinnee
2002-04-15
打赏
举报
回复
没错,烦得入卵。
Tommy Chang
2002-04-15
打赏
举报
回复
1. datastage中汇总专门有一个叫aggregator的插件,抽取的同时可以做sum,avg,count,max,min和标准差,不依赖于数据库实现,并不要脚本啊
2. 时间维很多时候是前期就一次生成一大堆记录,将未来N年都导入时间维
3. 维表在转换的时候也经常要用到来做关联,如果用datastage来关联数据可以做到根据是否能够关联成功来作为过滤条件,从而跳出是需要做insert还是要update,或者直接用其数据库插件来实现insert or update或update or insert这种操作,也不用脚本啊
4. owb在oracle的报价书上不是免费的,安装也一定要装到oracle数据库里面,是个pl/sql的代码生成器。转换不复杂而且大多数数据源都是oracle的话倒也不错。
5. jinnee所讲的方法是典型手写程序的思路,用工具的大方向也很接近,部分处理可以在工具中实现,节省在数据库中直接操作sql的工作量和复杂性,改起来容易。客户需求变来变去的时候,改抽取工程确实太烦了
:)
yuanque
2002-04-12
打赏
举报
回复
我搞过的东东一般是这样的,维度表数据一般是在抽取之前(或都抽取的第一步工作)就装载好了的,很少变动,即使变动也不用写脚来导的(可以写维护程序),事实上需要导的是大量的事实数据。
Tommy Chang
2002-04-12
打赏
举报
回复
这些在工具里面不用写脚本啊?DataStage里面图形化有个叫transformer的插件,可以跟维表做关联取的id。
fact table中int的id实际上是从维表过来的,转换过程中通过将明细数据跟维表关联,取出外键id的,实在不知你说的脚本是用来做啥的。除非是用来生成维表中的id,这也很容易,不需要脚本啊。
:)
yorgo
2002-04-12
打赏
举报
回复
我的逻辑是这样的,不知道对不对,请大家指正
构建好所有的维度表、实事表。编写脚本向这些表填写数据。
维度表中有定量的数据时,先批量将该维度表的数据填充。
如果维度表的数据不是定量的而是变化的话,则在遇到新的数据的时候自动填加新的维度表内容
开始填加事实表
取原数据,根据数据判断每个维度表来确认各自的id,如果遇到没有的维度内容还需要即时插入数据,获得维度id,然后将汇总的维度id和事实数据插入事实表。然后再进行下一条记录
我的问题是,真的每一次都是要这样痛苦吗?还有更好的方法吗?
xia_yu
2002-04-12
打赏
举报
回复
DTS,T-sql
工具
yuanque
2002-04-12
打赏
举报
回复
不可能不写脚本,单纯生成ID倒不件难事。比如说:汇总就要写大量的脚本。
jinnee
2002-04-12
打赏
举报
回复
你的过程有点问题。
做ETL的时候,第一步应该是把那些散的数据集中到一个地方来,比如,不管是ACCESS上的,还是oracle上的,全部先转到SQL上再说(当然,有时也可灵活运用),这样就可以在一个统一的环境下进行数据清洗,不管你用什么方法吧(其实这步大多数情况下不太重要),做完清洗后,就可以想些办法把你要的数据仓库建立起来了,比如做些计算汇总啊等等。最后再将这些数据装到多维数据库中,第一步是更新维度表,第二步更新事实表,然后才可以装到多维库中。
jinnee
2002-04-12
打赏
举报
回复
维度表有时也是每天都要更新的啊,一次导入很多天估计不行吧,比如说不定期的放假,如果你也放进去了,成员就多了一个。我的做法是要更新的维度表还是每天更新的,反正天天都要运行脚本算事实表的。
hzwantfly
2002-04-12
打赏
举报
回复
忘了说,oracle datawarehousing builder可以到oracle网站上免费down,这软件本身就是free的
hzwantfly
2002-04-12
打赏
举报
回复
oracle datawarehousing builder
yorgo
2002-04-12
打赏
举报
回复
但是例如时间维度,会跟着时间的变化而变化呀,一次性到入一定量的时间维度?
warning
2002-04-11
打赏
举报
回复
感觉微软的DTS还可以,datastage也不错
脚本还是要写的
yuanque
2002-04-11
打赏
举报
回复
我以前是写了很多的存储过程的。
听说过一些工具如:DATASTAGE、DATAJUNCTION,可以用,但是脚本是省不了的啦。
ETL是数据仓库建设中最烦的环节……
BI Kettle中文文档汇集
BI Kettle中文文档汇集 ELT平台操作手册-KETTLE.pdf
ETL
工具
kettle.pdf
etl
工具
kettle公司学习文档.pdf
ETL
工具
kettle学习总结.pdf
ETL
工具
Kettle用户手册3.0.pdf
ETL
工具
Spoon 2.5.0用户手册.pdf KETTLE.pdf kettle_
使用
中的一些常见问题.pdf Kettle_命令行
使用
.pdf kettle中文文档之output.pdf Kettle例子.pdf Kettle关于平面数据的导入.pdf Kettle初探.pdf Kettle命令行
使用
说明.pdf Kettle培训.ppt KETTLE基本知识培训.pptx kettle实现循环.pdf kettle常见问题FAQ.pdf kettle技术手册.pdf kettle接口抽取同步应用实例.pdf kettle文档.pdf Kettle的一些常见问题.txt kettle的并行_集群和分区.pdf kettle管理之元数据资料库.pdf kettle调研手记-技巧汇总.pdf Kettle集群.pdf linux下部署kettle.pdf 开源
ETL
工具
-PentahoKettle
使用
入门.pdf 开源
ETL
工具
kettle系列之动态转换.pdf 我的kettle学习笔记.pdf 测试
ETL
工具
都应测试哪些方面.pdf
什么是
ETL
?
ETL
是
做
什么的?
ETL
,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。
ETL
是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,因而也称为数据仓库技术。其目的是将分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 可以看出,
ETL
要
做
三部分工作,数据抽取、数...
ETL
是
做
什么的?
ETL
是英文Extract-Transform-Load的缩写,用来描述将数据从源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,它能够对各种分布的、异构的源数据(如关系数据)进行抽取,按照预先设计的规则将不完整数据、重复数据以及错误数据等“脏"数据内容进行清洗,得到符合要求的“干净”数据,并加载到数据仓库中进行存储,这些“干净”数据就成为了数据分析、数据挖掘的基石。
ETL
是实现商务智能(Business Intelligence,BI)的核心。一般情况下,
ETL
ETL
代表什么?
ETL
开发主要
做
什么?
ETL
(Extract, Transform, Load)是数据处理中的关键流程,涉及从源系统提取数据、进行必要的转换和清洗,最后加载到目标系统。
ETL
在数据生态系统中扮演桥梁角色,连接数据源与数据仓库,为数据分析和决策支持提供基础。
ETL
开发的主要任务包括数据提取、转换和加载,每个步骤都需精心设计和执行,以确保数据的质量和一致性。然而,
ETL
开发面临数据质量、性能、安全和技术更新等挑战。为应对这些挑战,开发人员需采用先进的技术和策略,如数据清洗、并行处理、数据加密和持续学习。
什么是
ETL
?
ETL
是什么技术?
ETL
是英文Extract-Transform-Load的缩写,用来描述将数据从源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,它能够对各种分布的、异构的源数据(如关系数据)进行抽取,按照预先设计的规则将不完整数据、重复数据以及错误数据等“脏"数据内容进行清洗,得到符合要求的“干净”数据,并加载到数据仓库中进行存储,这些“干净”数据就成为了数据分析、数据挖掘的基石。
ETL
是实现商务智能(Business Intelligence,BI)的核心。一般情况下,ET
数据仓库
7,393
社区成员
6,741
社区内容
发帖
与我相关
我的任务
数据仓库
其他数据库开发 数据仓库
复制链接
扫一扫
分享
社区描述
其他数据库开发 数据仓库
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章