咨询下各位,sqlserver环境下从业务库抽取数据到数据仓库的问题
主要是想解决业务库到数据仓库ODS层的数据增量同步
现在的做法是:每天drop掉仓库中的表,然后重新into一遍
后期想改成:每天的同步只做增量(包括源表增加、修改、删除操作)
遇到问题:原表【增加】的操作很好做都有主键id,原表【修改】由于大部分表都不带有更新数据的【时间戳】字段,所以一直没找到原表【修改】操作的数据同步方法,原表【删除】操作也很慢,尝试了一下kettle etl工具在没有时间戳的情况下,也是抽取两个表的数据进行对比,效率还不如直接drop+insert的全量同步
最后说一下表的数据量:大部分数据量都在百万以下,超过百万的不多,500w以上的表一个,10000w以上的表1个
求大神们推荐一个解决方案,或者能够解决问题的工具。。。