数据仓库中的一点点小问题,希望各位大神开导开导
一下是一段关于ETL过程中增量抽取的描述:
比如一张会员表,它的主键是memberID,而会员的状态是有可能每天都更新的,
我们在第一次抽取之后,生成一张备用表A,包含两个字段,第一个是memberID,
第二个是除了memberID之外其他所有字段拼接起来,再做个Hash生成的字段,
在下一次抽取的时候,将源表同样的处理,生成表B,将B和A左关联,Hash字段不相等的
为发生变化的记录,另外还有一部分新增的记录,
根据这两部分记录的memberID去源表中抽取对应的记录。
根据上面的描述可以吧数据分为新增组合更新组,然后去更新ODS层的数据,那么如果在源系统中某条数据被删除,‘ODS中的数据怎么能被删除呢,还是说ODS层中的数据不用被删除。