数据仓库构建步骤 zt

blueskycn 2002-11-18 10:12:47
数据仓库构建步骤

数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。
数据仓库系统的原始需求不明确,且不断变化与增加,开发者最初不能确切了解到用户的明确而详细的需求,用户所能提供的无非是需求的大的方向以及部分需求,更不能较准确地预见到以后的需求。因此,采用原型法来进行数据仓库的开发是比较合适的,因为原型法的思想是从构建系统的简单的基本框架着手,不断丰富与完善整个系统。但是,数据仓库的设计开发又不同于一般意义上的原型法,数据仓库的设计是数据驱动的。这是因为数据仓库是在现存数据库系统基础上进行开发,它着眼于有效地抽取、综合、集成和挖掘已有数据库的数据资源,服务于企业高层领导管理决策分析的需要。但需要说明的是,数据仓库系统开发是一个经过不断循环、反馈而使系统不断增长与完善的过程,这也是原型法区别于系统生命周期法的主要特点。因此,在数据仓库的开发的整个过程中,自始至终要求决策人员和开发者的共同参与和密切协作,要求保持灵活的头脑,不做或尽量少做无效工作或重复工作。
数据仓库的设计大体上可以分为以下几个步骤:
l 概念模型设计;
l 技术准备工作;
l 逻辑模型设计;
l 物理模型设计;
l 数据仓库生成;
l 数据仓库运行与维护。
下面我们六个主要设计步骤为主线,介绍在各个设计步骤中设计的基本内容。
第一节 概念模型设计
进行概念模型设计所要完成的工作是:
<1>界定系统边界
<2>确定主要的主题域及其内容
概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的概念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如何建立数据仓库系统的概念模型。一方面,通过原有的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的内容有一个完整而清晰的认识;另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。
概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件的限制。
1. 界定系统的边界
数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面前:
l 要做的决策类型有哪些?
l 决策者感兴趣的是什么问题?
l 这些问题需要什么样的信息?
l 要得到这些信息需要包含原有数据库系统的哪些部分的数据?
这样,我们可以划定一个当前的大致的系统边界,集中精力进行最需要的部分的开发。因而,从某种意义上讲,界定系统边界的工作也可以看作是数据仓库系统设计的需求分析,因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。
2. 确定主要的主题域
在这一步中,要确定系统所包含的主题域,然后对每个主题域的内容进行较明确的描述,描述的内容包括:
l 主题域的公共码键;
l 主题域之间的联系;
l 充分代表主题的属性组。
第二节 技术准备工作
这一阶段的工作包括:技术评估,技术环境准备。
这一阶段的成果是:技术评估报告、软硬件配置方案、系统(软、硬件)总体设计方案。管理数据仓库的技术要求与管理操作型环境中的数据与处理的技术要求区别很大,两者所考虑的方面也不同。我们之所以在一般情况下总是将分析型数据与操作型数据分离开来,将分析型数据单独集中存放,也就是用数据仓库来存放,技术要求上的差异是一个重要原因。
1. 技术评估
进行技术评估,就是确定数据仓库的各项性能指标。一般情况下,需要在这一步里确定的性能指标包括:
l 管理大数据量数据的能力;
l 进行灵活数据存取的能力;
l 根据数据模型重组数据的能力;



l 透明的数据发送和接收能力;
l 周期性成批装载数据的能力;
l 可设定完成时间的作业管理能力。
2. 技术环境准备
一旦数据仓库的体系化结构的模型大体建好后,下一步的工作就是确定我们应该怎样来装配这个体系化结构模型,主要是确定对软硬件配置的要求;我们主要考虑相关的问题:
l 预期在数据仓库上分析处理的数据量有多大?
l 如何减少或减轻竞争性存取程序的冲突?
l 数据仓库的数据量有多大?
l 进出数据仓库的数据通信量有多大?等等。
根据这些考虑,我们就可以确定各项软硬件的配备要求,并且在这一步工作结束时各项技术准备工作应已就绪,可以装载数据了。这些配备有:
l 直接存取设备(DASD);
l 网络;
l 管理直接存取设备(DASD)的操作系统;
l 进出数据仓库的界面(主要是数据查询和分析工具);
管理数据仓库的软件,目前即选用数据库管理系统及有关的选件,购买的DBMS产品不能满足管理数据仓库需要的,还应考虑自己或软件集成商开发有关模块等等。
第三节 逻辑模型设计
在这一步里进行的工作主要有:
l 分析主题域,确定当前要装载的主题;
l 确定粒度层次划分;
l 确定数据分割策略;
l 关系模式定义;
l 记录系统定义
逻辑模型设计的成果是,对每个当前要装载的主题的逻辑实现进行定义,并将相关内容记录在数据仓库的元数据中,包括:
l 适当的粒度划分;
l 合理的数据分割策略;
l 适当的表划分;
l 定义合适的数据来源等。
1. 分析主题域
在概念模型设计中,我们确定了几个基本的主题域,但是,数据仓库的设计方法是一个逐步求精的过程,在进行设计时,一般是一次一个主题或一次若干个主题地逐步完成的。所以,我们必须对概念模型设计步骤中确定的几个基本主题域进行分析,并选择首先要实施的主题域。选择第一个主题域所要考虑的是它要足够大,以便使得该主题域能建设成为一个可应用的系统;它还要足够小,以便于开发和较快地实施。如果所选择的主题域很大并且很复杂,我们甚至可以针对它的一个有意义的子集来进行开发。在每一次的反馈过程中,都要进行主题域的分析。
2. 粒度层次划分
数据仓库逻辑设计中要解决的一个重要问题是决定数据仓库的粒度划分层次,粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型。确定数据仓库的粒度划分,可以使用在粒度划分一节中介绍的方法,通过估算数据行数和所需的DASD数,来确定是采用单一粒度还是多重粒度,以及粒度划分的层次。
3. 确定数据分割策略
在这一步里,要选择适当的数据分割的标准,一般要考虑以下几方面因素:数据量(而非记录行数)、数据分析处理的实际情况、简单易行以及粒度划分策略等。数据量的大小是决定是否进行数据分割和如何分割的主要因素;数据分析处理的要求是选择数据分割标准的一个主要依据,因为数据分割是跟数据分析处理的对象紧密联系的;我们还要考虑到所选择的数据分割标准应是自然的、易于实施的:同时也要考虑数据分割的标准与粒度划分层次是适应的。
4. 关系模式定义
数据仓库的每个主题都是由多个表来实现的,这些表之间依靠主题的公共码键联系在一起,形成一个完整的主题。在概念模型设计时,我们就确定了数据仓库的基本主题,并对每个主题的公共码键、基本内容等做了描述在这一步里,我们将要对选定的当前实施的主题进行模式划分,形成多个表,并确定各个表的关系模式。



第四节 物理模型设计
这一步所做的工作是确定数据的存储结构,确定索引策略,确定数据存放位置,确定存储分配。
确定数据仓库实现的物理模型,要求设计人员必须做到以下几方面:
l 要全面了解所选用的数据库管理系统,特别是存储结构和存取方法。
l 了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等,这些是对时间和空间效率进行平衡和优化的重要依据。
l 了解外部存储设备的特性,如分块原则,块大小的规定,设备的I/O特性等。
1. 确定数据的存储结构
一个数据库管理系统往往都提供多种存储结构供设计人员选用,不同的存储结构有不同的实现方式,各有各的适用范围和优缺点,设计人员在选择合适的存储结构时应该权衡三个方面的主要因素:存取时间、存储空间利用率和维护代价。
2. 确定索引策略
数据仓库的数据量很大,因而需要对数据的存取路径进行仔细的设计和选择。由于数据仓库的数据都是不常更新的,因而可以设计多种多样的索引结构来提高数据存取效率。
在数据仓库中,设计人员可以考虑对各个数据存储建立专用的、复杂的索引,以获得最高的存取效率,因为在数据仓库中的数据是不常更新的,也就是说每个数据存储是稳定的,因而虽然建立专用的、复杂的索引有一定的代价,但一旦建立就几乎不需维护索引的代价。
3. 确定数据存放位置
我们说过,同一个主题的数据并不要求存放在相同的介质上。在物理设计时,我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上,如磁盘或磁带。
数据存放位置的确定还要考虑到其它一些方法,如:决定是否进行合并表;是否对一些经常性的应用建立数据序列;对常用的、不常修改的表或属性是否冗余存储。如果采用了这些技术,就要记入元数据。
4. 确定存储分配
许多数据库管理系统提供了一些存储分配的参数供设计者进行物理优化处理,如:块的尺寸、缓冲区的大小和个数等等,它们都要在物理设计时确定。这同创建数据库系统时的考虑是一样的。
第五节 数据仓库的生成
在这一步里所要做的工作是接口编程,数据装入。
这一步工作的成果是,数据已经装入到数据仓库中,可以在其上建立数据仓库的应用,即DSS应用。
1. 设计接口
...全文
168 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
soktest 2002-12-06
  • 打赏
  • 举报
回复
ytu
loveandhate 2002-12-01
  • 打赏
  • 举报
回复
好文章
yuanque 2002-11-26
  • 打赏
  • 举报
回复
怎么有点像王珊写的那书的内容?
SAP R/3 CO co培训资料全文共48页,当前为第1页。 创建成本控制范围 ZT01公司决定激活SAP管理会计(CO)模块来加强公司内部核算和管理,管理会计中最主要的组织结构称为"成本控制范围",如果是一个集团企业,下属多个公司可以在一个成本控制范围内来进行管理 步骤:IMG-企业结构—定义—控制—维护成本控制范围 双击"维护成本控制范围",按"新条目"并输入以下数据: 控制范围: DZY1 名称:VTECH成本控制范围 公司—CO范围:控制范围与公司代码相同 货币类型:10 货币:RMB 帐目表:DZY 会计年度变式:dy 按"保存"键保存 co培训资料全文共48页,当前为第2页。 将公司代码分配给成本控制范围 步骤:IMG—企业结构—分配—控制—把公司代码分配给成本控制范围 选中"ZT01"成本控制范围,双击"公司代码的设置"点"新条目"并输入以下数据: 公司:DZY1 按"保存"按钮保存(就是分配) co培训资料全文共48页,当前为第3页。 维护成本控制范围 步骤:IMG-控制—一般控制—组织结构—维护成本控制范围 双击"维护成本控制范围",再双击成本控制范围"DZY"一行.并输入以下数据: 成本中心标准层次:C999 保存提示:需要系统C999被创建为标准等级么",按确定按钮保存. CO有很多组件,我们只激活ZT01公司成本控制范围的"成本中心"、"订单管理"、"承诺管理" 选中"范围DZY",然后点左边的"激活组件/控制标识",按"新条目"并输入以下数据: 会计年度:2008 成本中心:组元可用 订单管理:组元可用 承诺管理:组件活动 按"保存"按钮保存。提示"重要传达,成本控制范围中的控制标识符"按确定键保存. co培训资料全文共48页,当前为第4页。 新建成本中心组和成本中心 为了加强内部管理,ZT01公司决定建立内部的成本中心责任体系,要在公司内定义一个"标准"成本中心层次,这是使用成本中心管理所必须的 步骤:SAP菜单—会计—控制—成本中心会计—主数据—标准层次—OKEON-更改,并输入控制范围:DZY1,保存 并输入以下数据: 组名称:VTECH成本中心标准层次 接下来创建下一层的成本中心组 选中标准层次C999,点工具栏上的"创建"键,选择"较低级组",并输入以下数据: 组名称:MFG 描述:制造部 按"保存"按钮保存.我们复制一个"总部"成本中心组 选中"成本中心组MFG"点"复制"按钮,并输入: 组名称:HQ 描述:总部 按"保存"按钮. co培训资料全文共48页,当前为第5页。 现在创建下属成本中心 选中"成本中心组MFG",点工具栏的"创建"按钮,选择"成本中心",并输入以下数据: 成本中心:1001 名称:生产车间 描述:生产车间 负责人:王一 成本中心类型:F 生产 成本中心:1002 名称:仓库 描述:仓库 负责人:王二 成本中心类型:F 生产 co培训资料全文共48页,当前为第6页。 选中"成本中心组HQ",点工具栏的"创建"按钮,选择"成本中心",并输入以下数据: 成本中心:2001 名称:财务部 描述:财务部 负责人:王三 成本中心类型:W管理 成本中心:2002 名称:人事部 描述:人事部 负责人:王四 成本中心类型:W管理 成本中心:2003 名称:销售部 描述:销售部 负责人:王五 成本中心类型:V销售 co培训资料全文共48页,当前为第7页。 成本中心:2004 名称:市场部 描述:市场部 负责人:李一 成本中心类型:V销售 成本中心:2005 名称:采购部 描述:采购部 负责人:李二 成本中心类型:G后勤 成本中心:2006 名称:行政部 描述:行政部 负责人:李三 成本中心类型:W管理 co培训资料全文共48页,当前为第8页。 新建初级成本要素 CO用"成本要素"来管理成本流,成本要素和财务会计中的科目类似也是相互联系的. 步骤:SAP菜单—会计—控制—成本中心会计—主数据—成本要素—单个处理—KA01 输入以下数据: 成本要素:41010101 有效起始日:01.01.2006 填写本年年初 按回车,并输入以下数据: 成本要素类别: 1 按"保存"键保存. co培训资料全文共48页,当前为第9页。 重复以上步骤,完成所有损益类科目都是初级成本要素,除了"41010901"成本要素类别是"22外部结算",其他所有初级成本要素类别都是"1 初级成本/成本降低产生的利润". 因为41010901生产成本—生产订单差异"是生产订单结算产生的,是管理会计计算出结构后,在过帐到财务会计,使用一种特殊的成本要素类别"22外部计算"来完成. 41010801 41010901 41050101 41050111 41050121 51010101 51010201 5401010

7,394

社区成员

发帖
与我相关
我的任务
社区描述
其他数据库开发 数据仓库
社区管理员
  • 数据仓库
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧