数据仓库中的表(维度表或事实表)主键到底应该使用什么类型? 自增长int 还是直接用业务主键id?
在很多书籍中都讲到数据仓库的表的主键最好是自增长的int型,理由是当数据量很大的情况下,int比字符型的查询速度要快很多。
但是在实际项目中,真的是使用自增长的int型吗? 在我理解中,如果使用自增长的int型的话,存在以下问题:
1、当某个维度表需要重新抽取的时候(即删除该维度表所有数据),如果源数据库中少了一条维度记录的话,则在事实表中引用原先该维度记录的key会找不到。
使用自增长的int型作为维度表和事实表的主键的话,还会存在哪些弊端??
在数据仓库表的主键类型上,你们有什么看法??