Informatica中源表的数据量太大该怎么处理

弹指神通 2014-12-07 11:02:17
这是一个事实表的mapping,其中好几个源表都有上亿的数据,而且部分大表之间还要做join。将session跑起来之后,从源表读数据的时间就要很久,几十分钟的样子。然后两个大表又要做join..最后这个session因为时间太长失败了。
请问各位对这种mapping有什么处理方法吗?
感觉可以调优的步骤差不多都已经试过了,由于源表的数据量确实有点大,所以感觉也没什么好的办法。希望各位给点意见。
...全文
2475 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
qq_38468736 2017-04-24
  • 打赏
  • 举报
回复
根据你问题描述,应该是瓶颈出现在源文件读取上,建议设置多线程(建议4个线程)读取数据源文件,同时根据关联字段在每个source之后添加sort组件(目的是排序源文件,并且将源文件先落地),在join组件上确保master的表为小表
robelus 2015-01-15
  • 打赏
  • 举报
回复
split source data, 然后分多批次运行ETL LOADING.
弹指神通 2014-12-26
  • 打赏
  • 举报
回复
引用 2 楼 lxxffff 的回复:
增量抽取+表分区存储,如果必须全表比对....加索引之类的吧
增量抽取是后面要考虑的,现在我要把现有数据抽取过来。但是现在做的mapping几个源表的数据量都过亿,infor跑这个mapping的时候读source表的数据都会超时,这种一般要怎么处理。
lxxffff 2014-12-23
  • 打赏
  • 举报
回复
增量抽取+表分区存储,如果必须全表比对....加索引之类的吧
Forogen 2014-12-16
  • 打赏
  • 举报
回复
增量抽取不可以吗?

246

社区成员

发帖
与我相关
我的任务
社区描述
讨论 Informatica 数据集成相关技术、数据隐私保护相关技术
社区管理员
  • 数据集成社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧