如何决定哪些表需要delta增量更新

hunter1ok 2014-09-23 10:54:25
我们现在的数据集市每天都是全表删除更新(有点怪?)。由于主题质量等原因,现在要重建。

请教下,通常怎么决定哪些表需要delta增量更新?交易事实表肯定可以。
一般比如产品表,客户表,地址表呢?
聚集后的比如每客户月度收入事实表呢?

另一个问题:如果要引入slow change dimension,一般的项目,会建多少个SCD?比如客户信息表,dim_customer,有三十个左右属性(单位,行业,电话,地址,预付费/月账单),10个左右计算结果(如月消费1000-3000),那么通常大家会考虑建多少个缓慢变化惟呢?不会40个列全部都建吧?

多谢!
...全文
1045 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
hunter1ok 2014-09-30
  • 打赏
  • 举报
回复
自己找到答案了http://www.cnblogs.com/biwork/p/3446236.html 数据仓库增量数据处理一般发生在从 Source 到 Staging 的过程中,从 Staging 到DW 一般又分为维度 ETL 处理和事实 ETL 处理两个部分。那么实际上从 Source 到 Staging 的过程中,就已经有意识的对维度和事实进行了分类加载处理。通常情况下,作为维度的数据量较小,而作为业务事实数据量通常非常大。因此,着重要处理的是业务事实数据,要对这一部分数据采取合适的增量加载策略。 通常情况下,对数据仓库从 Source 到 Staging 增量数据的处理可以按照这种方式: 对于具有维度性质的数据表可以在 Staging 中采取全卸载,全重新加载的模式。即每次加载数据的时候,先将 Staging 表数据清空掉,然后再重新从数据源加载数据到 Staging 表中。 对于具有事实性质的数据表,需要考虑使用上面通用的集中增量数据处理的方案,选择一个合适的方式来处理数据。保证在 Staging 事实中的数据相对于后面的 DW 数据库来说就是新增的或者已修改过的数据。 但是也不排除大维度表的情况出现,即具有维度性质的数据表本身就非常庞大,像会员表有可能作为维度表,动辄百万甚至千万的数据。这种情况下,也可以考虑使用合适的增量数据加载策略来提高加载的性能。 至于从 Staging 到 DW 的这一过程,通常情况下包含了维度 SCD 过程和事实 Lookup 过程

7,388

社区成员

发帖
与我相关
我的任务
社区描述
其他数据库开发 数据仓库
社区管理员
  • 数据仓库
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧