社区
下载资源悬赏专区
帖子详情
Informatica安装、平抽、增量抽取[整理].pdf下载
weixin_39821051
2021-11-03 13:43:35
Informatica安装、平抽、增量抽取[整理].pdf , 相关下载链接:
https://download.csdn.net/download/xhr131452007/30896051?utm_source=bbsseo
...全文
17
回复
打赏
收藏
Informatica安装、平抽、增量抽取[整理].pdf下载
Informatica安装、平抽、增量抽取[整理].pdf , 相关下载链接:https://download.csdn.net/download/xhr131452007/30896051?utm_source=bbsseo
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
Informatica
安装
、
平
抽
、
增量
抽
取
[
整理
].
pdf
Informatica
安装
、
平
抽
、
增量
抽
取
[
整理
].
pdf
Informatica
PowerCenter教程.
pdf
Informatica
开发手册
Informatica
PowerCenter教程.
pdf
PowerExchange实时
抽
取
架构介绍.
pdf
PowerExchange实时
抽
取
架构介绍.
pdf
大数据什么是ETL.
pdf
⼤数据什么是 ⼤数据什么是ETL ETL 概念 概念 ETL 这个术语来源于数据仓库,ETL 指的是将业务系统的数据经过
抽
取
、清洗转换之后加载到数据仓库的过程。ETL 的⽬的是将企业中的 分散、零乱、标准不统⼀的数据整合到⼀起,为企业的决策提供分析依据。 ETL是 BI 项⽬重要的⼀个环节。 通常情况下,在 BI 项⽬中 ETL 会花掉整个项⽬⾄少 1/3 的时间,ETL 设计的好坏直接关接到 BI 项⽬的成 败。 BI 即商务智能,它是⼀套完整的解决⽅案,⽤来将企业中现有的数据进⾏有效的整合,快速准确地提供报表并提出决策依据,帮助企业 做出明智的业务经营决策。 ETL 的设计分三部分:数据
抽
取
(extract)、数据的清洗转换(transform)、数据的加载(load)。 在设计 ETL 的时候我们也是从这三部分出发。 数据的
抽
取
是从各个不同的数据源
抽
取
到 ODS(Operational Data Store,操作型数据存储,即⼀种常被⽤作数据仓库临时区域的数据库) 中,这个过程也可以做⼀些简单的数据的清洗和转换。在
抽
取
的过程中需要挑选不同的
抽
取
⽅法,尽可能的提⾼ ETL 的运⾏效率。 ETL 三个部分中,花费时间最长的是 "T"(Transform,清洗、转换) 的部分,⼀般情况下这部分⼯作量是整个 ETL 的2/3。 数据的加载⼀般在数据清洗完了之后直接写⼊ DW(Data Warehousing,数据仓库) 中去。 ETL 的实现有多种⽅法,常⽤的有三种。 借助 ETL ⼯具(如 Oracle的 OWB、SQL Server 2000 的 DTS、SQL Server2005 的 SSIS 服务、Informatic 等) 实现 使⽤ SQL ⽅式实现 ETL ⼯具和 SQL 相结合 前两种⽅法各有各的优缺点,借助⼯具可以快速的建⽴起 ETL ⼯程,屏蔽了复杂的编码任务,提⾼了速度,降低了难度,但是缺少灵活 性。SQL 的⽅法优点是灵活,提⾼ ETL 运⾏效率,但是编码复杂,对技术要求⽐较⾼。第三种是综合了前⾯⼆种的优点,会极⼤地提⾼ ETL 的开发速度和效率。 数据的
抽
取
( 数据的
抽
取
(Extract) ) 这⼀部分需要在调研阶段做⼤量的⼯作,⾸先要搞清楚数据是从⼏个业务系统中来,各个业务系统的数据库服务器运⾏什么 DBMS,是否存在 ⼿⼯数据,⼿⼯数据量有多⼤,是否存在⾮结构化的数据等等,当收集完这些信息之后才可以进⾏数据
抽
取
的设计。 1、对于与存放 、对于与存放 DW 的数据库系统相同的数据源处理⽅法 的数据库系统相同的数据源处理⽅法 这⼀类数据源在设计上⽐较容易。⼀般情况下,DBMS(SQLServer、Oracle)都会提供数据库链接功能,在 DW 数据库服务器和原业务系统 之间建⽴直接的链接关系就可以写 Select 语句直接访问。 2、对于与 、对于与 DW 数据库系统不同的数据源的处理⽅法 数据库系统不同的数据源的处理⽅法 对于这⼀类数据源,⼀般情况下也可以通过 ODBC 的⽅式建⽴数据库链接——如 SQL Server 和 Oracle 之间。如果不能建⽴数据库链接, 可以有两种⽅式完成,⼀种是通过⼯具将源数据导出成 .txt 或者是 .xls ⽂件,然后再将这些源系统⽂件导⼊到 ODS 中。另外⼀种⽅法是通 过程序接⼝来完成。 3、对于⽂件类型数据源 、对于⽂件类型数据源(.txt,.xls),可以培训业务⼈员利⽤数据库⼯具将这些数据导⼊到指定的数据库,然后从指定的数据库中
抽
取
。或者还可以借助⼯具实 ,可以培训业务⼈员利⽤数据库⼯具将这些数据导⼊到指定的数据库,然后从指定的数据库中
抽
取
。或者还可以借助⼯具实 现。 现。 4、
增量
更新的问题 、
增量
更新的问题 对于数据量⼤的系统,必须考虑
增量
抽
取
。⼀般情况下,业务系统会记录业务发⽣的时间,我们可以⽤来做
增量
的标志,每次
抽
取
之前⾸先判 断 ODS 中记录最⼤的时间,然后根据这个时间去业务系统取⼤于这个时间所有的记录。利⽤业务系统的时间戳,⼀般情况下,业务系统没 有或者部分有时间戳。 数据的清洗转换( 数据的清洗转换(Cleaning、 、Transform) ) ⼀般情况下,数据仓库分为 ODS、DW 两部分。通常的做法是从业务系统到 ODS 做清洗,将脏数据和不完整数据过滤掉,在从 ODS 到 DW 的过程中转换,进⾏⼀些业务规则的计算和聚合。 1、 、 数据清洗 数据清洗 数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进⾏
抽
取
。 不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三⼤类。 不完整的数据:这⼀类数据主要是⼀些应该有的信息缺失,如供应商的名称、分公司的名称、客户的
数据仓库ETL工具箱 Data Warehouse ETL Toolkit.rar
数据仓库ETL工具箱 Data Warehouse ETL Toolkit.rar
下载资源悬赏专区
13,654
社区成员
12,578,537
社区内容
发帖
与我相关
我的任务
下载资源悬赏专区
CSDN 下载资源悬赏专区
复制链接
扫一扫
分享
社区描述
CSDN 下载资源悬赏专区
其他
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章