【讨论】如何来量化数据仓库中的数据质量问题

zhouguoyao 2009-10-13 09:01:57
数据仓库已经建立使用好几年了,现在对目前数据仓库中的数据质量比较担心,
大家有什么好的方法能够比较清楚的了解目前数据仓库中的数据质量到底如何?

有没有什么好的工具或方法?谢谢
...全文
266 16 打赏 收藏 转发到动态 举报
写回复
用AI写文章
16 条回复
切换为时间正序
请发表友善的回复…
发表回复
Leon_2012 2011-06-08
  • 打赏
  • 举报
回复
有个工具叫informatica data quality,去看看吧!
cztgl 2011-03-19
  • 打赏
  • 举报
回复
[Quote=引用 14 楼 zhouguoyao 的回复:]
我觉得数据仓库的质量问题来源于下面三个方面:
1、数据源问题(包括各生产系统(源)重构或产品线增加带来的数据质量问题)

2、ETL产生的问题(包括运维过程产生的,如维护某个维表时候,少了一个成员):抽取、装载、清洗转换过程中出现的新的质量问题

3、业务逻辑问题(包括设计问题和统计口径不一致的问题等等)

那么现在需要有一套工具或者一个平台 来自动发现可能产生的质量问题,从而可以自……
[/Quote]
you can build such a system so called 'data quality platform' only by yourself and receive dirty data from datawarehouse or ods checked out by the business rules every day.
zhouguoyao 2009-10-28
  • 打赏
  • 举报
回复
我觉得数据仓库的质量问题来源于下面三个方面:
1、数据源问题(包括各生产系统(源)重构或产品线增加带来的数据质量问题)

2、ETL产生的问题(包括运维过程产生的,如维护某个维表时候,少了一个成员):抽取、装载、清洗转换过程中出现的新的质量问题

3、业务逻辑问题(包括设计问题和统计口径不一致的问题等等)

那么现在需要有一套工具或者一个平台 来自动发现可能产生的质量问题,从而可以自动找到问题所在,来改善上面三个方面中存在的问题,以实现我们的真正目标---高质量可靠的数据仓库
duduniao85 2009-10-23
  • 打赏
  • 举报
回复
1、通过第三方工具实现ETL过程中的元数据管理,具体包括元数据血缘分析,
2、通过写程序解析以前ETL过程中的数据流信息,实现错误定位。
3、实现逐行或者加条件的ETL过程调试,以及设断点定位数据质量信息
4、规范日志记录行为,规定日志格式,甚至可以解析日志,保存在关系型数据库当中,供后续查询(这样记录日志的开销应该比较大)
  • 打赏
  • 举报
回复
个人认为
一个是强化过程管理,这点在ETL工具中基本上都具备了,那些数据通过了,哪些数据有问题
一个是数据仓库本身的缺陷,只能进行增量数据的更新,导致部分数据的丢失或冗余(丢失和冗余均可能出现)
再一个是从业务逻辑问题,即源数据本身的数据质量问题,导致很多关键值的缺失。

从三个方面考虑,我相信应该应该能够量化的
zhouguoyao 2009-10-19
  • 打赏
  • 举报
回复
1.数据概况分析结果
数据概况分析结果是对源系统的数据状况的分析产物,包括如源系统中有多少个表,每个表有多少字段,其中多少为空,表间的外键关系是否存在等
反映源系统数据质量的内容。这些内容用来决定数据迁移的设计和实现,并提供给错误事件事实表和审计维度表需要的相关数据。
2.错误事件事实表
错误事件事实表及相关的一系列维度表是数据质量检查部分的一个主要交付物。
粒度是每一次数据质量检查中的错误信息。
相关维度包括日期维度表、迁移信息维度表、错误事件信息维度表,
其中错误事件信息维度表中检查的类型、源系统的信息、涉及的表信息、检查使用的SQL等内容。
错误事件事实表不提供给前台用户。
3.审计维度表
审计维度表是给最终用户提供数据质量说明的一个维度表。它描述了用户使用的事实表的数据来源,数据质量情况等内容。
yangdingyu8686 2009-10-16
  • 打赏
  • 举报
回复
从业务层分析 到数据层分析,再从ETL中查找问题。。
貌似这样。。。
guidahuasheng 2009-10-16
  • 打赏
  • 举报
回复
数据分析系统吧
zhouguoyao 2009-10-16
  • 打赏
  • 举报
回复
大家继续讨论
vinsonshen 2009-10-16
  • 打赏
  • 举报
回复
元数据信息?
阿泰 2009-10-14
  • 打赏
  • 举报
回复
工具到没听说过,现在我们还是纯手工操作的。
两个层面上进行处理,
一是数据逻辑,如2楼所说的,字段长度,字段类型,null值等数据规则上的问题。
二是业务逻辑的,比如一个业务要先在a中生成,然后再在b中写入一些关联信息。
那么如果出现b中有而a中无的情况,那么就是脏数据
类似的还有时间先后问题等系列的处理等。

gjwang1983 2009-10-13
  • 打赏
  • 举报
回复
business driven
nianzhang747 2009-10-13
  • 打赏
  • 举报
回复
应该有什么数据分析的软件吧
zhouguoyao 2009-10-13
  • 打赏
  • 举报
回复
那么如何更有效的在ETL这一层对数据质量进行监控,大家有没有实际的一些经验可供分享?
阿泰 2009-10-13
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 pepsirjl 的回复:]
这个还是要看你当初加载前的数据质量了,如果源系统过来的数据没有经过任何的清洗就加载到数据库,那么质量肯定不高,在未加载到数据仓库前最好先清洗数据,比如:对数据的字段类型,字段长度,记录的完整性进行判断,决定是否加载。已经加载到数据仓库的数据也只能慢慢查了,呵呵
[/Quote]

数据质量的保证应该在ETL上完成,
后期如果发现了问题,就要往前推,看这个数据是怎么进来的,进来的时候有什么缺陷导致脏数据进来。

不过已经进来的数据好像没有专门的工具查出来吧,毕竟没有一个恒定的标准,主要还是靠应用中发现。
pepsirjl 2009-10-13
  • 打赏
  • 举报
回复
这个还是要看你当初加载前的数据质量了,如果源系统过来的数据没有经过任何的清洗就加载到数据库,那么质量肯定不高,在未加载到数据仓库前最好先清洗数据,比如:对数据的字段类型,字段长度,记录的完整性进行判断,决定是否加载。已经加载到数据仓库的数据也只能慢慢查了,呵呵
「⼤数据⼲货」基于 「⼤数据⼲货」基于Hadoop的⼤数据平台实施 的⼤数据平台实施——整体架构设 整体架构设 计 计 ⼤数据的热度在持续的升温,继云计算之后⼤数据成为⼜⼀⼤众所追捧的新星。我们暂不去讨论数据到底是否适⽤于您的公司或组织, ⾄少在互联⽹上已经被吹嘘成⽆所不能的超级战舰。好像⼀夜之间我们就从互联⽹时代跳跃进了⼤数据时代!关于到底什么是⼤数据,说真 的,到⽬前为⽌就和云计算⼀样,让我总觉得像是在看电影《云图》——云⾥雾⾥的感觉。或许那些正在向你推销⼤数据产品的公司会对您 描绘⼀幅乌托邦似的美丽画⾯,但是您⾄少要保持清醒的头脑,认真仔细的慎问⼀下⾃⼰,我们公司真的需要⼤数据吗? 做为⼀家第三⽅⽀付公司,数据的确是公司最最重要的核⼼资产。由于公司成⽴不久,随着业务的迅速发展,交易数据呈⼏何级增加,随之 ⽽来的是系统的不堪重负。业务部门、领导、甚⾄是集团⽼总整天嚷嚷的要报表、要分析、要提升竞争⼒。⽽研发部门能做的唯⼀事情就是 执⾏⼀条⼀条复杂到⾃⼰都难以想象的SQL语句,紧接着系统开始罢⼯,内存溢出,宕机........简直就是噩梦。OMG!please release me!!! 其实数据部门的压⼒可以说是常⼈难以想象的,为了把所有离散的数据汇总成有价值的报告,可能会需要⼏个星期的时间或是更长。这显然 和业务部门要求的快速响应理念是格格不⼊的。俗话说,⼯欲善其事,必先利其器。我们也该鸟枪换炮了......。 ⽹上有⼀⼤堆⽂章描述着⼤数据的种种好处,也有⼀⼤群⼈不厌其烦的说着⾃⼰对⼤数据的种种体验,不过我想问⼀句,到底有多少⼈多少 组织真的在做⼤数据?实际的效果⼜如何?真的给公司带来价值了?是否可以将价值量化?关于这些问题,好像没看到有多少评论会涉及,可能 是⼤数据太新了(其实底层的概念并⾮新事物,⽼酒装新瓶罢了),以⾄于⼈们还沉浸在各种美妙的YY。 做为⼀名严谨的技术⼈员,在经过短暂盲⽬的崇拜之后,应该快速的进⼊落地应⽤的研究,这也是踩着"云彩"的架构师和骑着⾃⾏车的架 构师的本质区别。说了⼀些牢骚话,当做发泄也好,博眼球也好,总之,我想表达的其实很简单:不要被新事物所迷惑,也不要盲⽬的崇拜 任何⼀样新事物,更不要⼈云亦云,这是我们做研究的⼈绝对要不得。 说了很多也是时候进⼊正题了。公司⾼层决定,正式在集团范围内实施⼤数据平台(还特地邀请了⼀些社区的⾼⼿,很期待.......),做为第三 ⽅⽀付公司实施⼤数据平台也⽆可厚⾮,因此也积极的参与到这个项⽬来。正好之前关于OSGi的企业级框架的研究也告⼀段落, 所以想利⽤CSDN这个平台将这次⼤数据平台实施过程记录下来。我想⼀定能为其它有类似想法的个⼈或公司提供很好的参考资料!需要⼤数 据的可以加我扣扣群⼤数据零基础到项⽬实战,专注⼤数据分析⽅法,⼤数据编程,⼤数据仓库,⼤数据案例,⼈⼯智能,数据挖掘都是纯⼲ 货分享,进群获取永久免费权限410391744 第⼀记,⼤数据平台的整体架构设计 1. 软件架构设计 ⼤数据平台架构设计沿袭了分层设计的思想,将平台所需提供的服务按照功能划分成不同的模块层次,每⼀模块层次只与上层或下层的模块 层次进⾏交互(通过层次边界的接⼝),避免跨层的交互,这种设计的好处是:各功能模块的内部是⾼内聚的,⽽模块与模块之间是松耦合 的。这种架构有利于实现平台的⾼可靠性,⾼扩展性以及易维护性。⽐如,当我们需要扩容Hadoop集群时,只需要在基础设施层添加⼀台 新的Hadoop节点服务器即可,⽽对其他模块层⽆需做任何的变动,且对⽤户也是完全透明的。 整个⼤数据平台按其职能划分为五个模块层次,从下到上依次为: 运⾏环境层: 运⾏环境层为基础设施层提供运⾏时环境,它由2部分构成,即操作系统和运⾏时环境。 (1)操作系统我们推荐安装REHL5.0以上版本(64位)。此外为了提⾼磁盘的IO吞吐量,避免安装RAID驱动,⽽是将分布式⽂件系统的数据⽬ 录分布在不同的磁盘分区上,以此提⾼磁盘的IO性能。 (2)运⾏时环境的具体要求如下表: 名称版本说明 JDK1.6或以上版本Hadoop需要Java运⾏时环境,必须安装JDK。 gcc/g++3.x或以上版本当使⽤Hadoop Pipes运⾏MapReduce任务时,需要gcc编译器,可选。 python2.x或以上版本当使⽤Hadoop Streaming运⾏MapReduce任务时,需要python运⾏时,可选。 基础设施层: 基础设施层由2部分组成:Zookeeper集群和Hadoop集群。它为基础平台层提供基础设施服务,⽐如命名服务、分布式⽂件系统、 MapReduce等。 (1)ZooKeeper集群⽤于命名映射,做为Hadoop集群的命名服务器,基础平台层的任务调度控制台可以通过命名服务器访问Hadoo
《计算机体系结构:量化研究方法(英文版•第5版)》堪称计算机系统结构学科的“圣经”,是计算机设计领域学生和实践者的必读经典。《计算机体系结构:量化研究方法(英文版•第5版)》系统地介绍了计算机系统的设计基础、存储器层次结构设计、指令级并行及其开发、数据级并行、gpu体系结构、线程级并行和仓库级计算机等。 现今计算机界处于变革之:移动客户端和云计算正在成为驱动程序设计和硬件创新的主流范型。因此在这个最新版,作者考虑到这个巨大的变化,重点关注了新的平台(个人移动设备和仓库级计算机)和新的体系结构(多核和gpu),不仅介绍了移动计算和云计算等新内容,还讨论了成本、性能、功耗、可靠性等设计要素。每章都有两个真实例子,一个来源于手机,另一个来源于数据心,以反映计算机界正在发生的革命性变革。 《计算机体系结构:量化研究方法(英文版•第5版)》内容丰富,既介绍了当今计算机体系结构的最新研究成果,也引述了许多计算机系统设计开发方面的实践经验。另外,各章结尾还附有大量的习题和参考文献。《计算机体系结构:量化研究方法(英文版•第5版)》既可以作为高等院校计算机专业高年级本科生和研究生学习“计算机体系结构”课程的教材或参考书,也可供与计算机相关的专业人士学习参考。
采购管理系统需求方案介绍报告 开场白: 各位领导: 大家好!今天由我来介绍****化学采购管理系统需求方案,本次报告讲解内容包括五部分: 一、概述采购管理系统总体功能、系统目标。 二、介绍****化学现行采购管理信息化应用情况和业务流程。 三、分析****化学现行采购管理活动存在的问题、形成原因,阐述日常经营活动遇到的难点问题、重点问题以及期望目标。 四、介绍****化学ERP采购管理系统的整体解决方案、业务流程、相关系统之间的业务联系和单据传递。 五、介绍****化学ERP采购管理系统实施效果,给企业带来的管理变革和提升。 首先我们讲述第一部分内容: 第一个问题:采购管理系统总体功能: (打开需求规格说明书鼠标指向系统概述): 采购管理在企业有很重要的作用。通过采购管理降低物料成本是企业增加利润的一个极有潜力的途径。采购也会影响库存,采购管理不当,会造成大量多余的库存,库存会占用企业的大量资金、加大管理成本。采购管理本身的好坏会影响供货的及时性、供货价格和供货质量,而这些都与企业最终产品的价格、质量和及时性直接有关。 采购管理包括采购计划管理、采购订货管理、合同管理、价格管理、发票管理、供应商管理等内容。 第二个问题:采购管理系统目标: (打开需求规格说明书鼠标指向系统目标): 采购系统帮助采购人员控制并完成从采购计划、采购合同直到合同跟踪全部过程管理,可有效地监控采购计划的实施,采购成本的变动及供应商交货履约情况,从而帮助采购人员选择最优秀的供应商和采购策略,确保采购工作高质量、高效率及低成本地执行,使企业具有最佳的供货状态。重点要实现的目标如下:  实现对供应商信息的动态管理和维护;  科学、准确、灵活地制定采购计划和采购策略,指导和规范企业日常的采购经营活动。  保证采购产品的及时准确,确保生产的持续进行;  实时动态地查询物资库存情况,避免盲目采购造成库存积压。  对企业采购计划的编制、审批、分配、下达进行监督和控制,对物资采购合同的编制、企业日常订货、到货检验、计量、入库、付款结算进行跟踪和追溯。 接下来我们讲述第二部分内容: 第一个问题:****化学现行采购管理信息化的应用情况: ****化学财务电算化工作开展以来,物资装备公司主要对日常的采购发票录入、审批以及采购结算工作实现了电算化,对企业的采购计划管理、采购合同管理、采购订货管理、采购价格管理、采购计划和业务员的绩效考核管理以及供应商管理等大量的繁杂事务性工作依靠手工来完成,这种局面导致信息反馈比较缓慢,单据传递不及时、报表统计工作量大以及工作效率低下等现象,从一定程度上影响了企业的快速发展。结合****化学现行业务流程我们作如下具体阐述: 第二个问题:介绍现行业务总体流程: (鼠标指向现行业务总体流程图) 1.编制年度采购计划: 生产管理部编制下年的生产经营综合计划——战研心审批后下发给各个生产分厂——各个生产分厂依据下达的生产经营综合计划计算原料消耗数量,根据产量预算并编制全年采购以及资金使用计划上报战研心——战研心审批后下发给各分厂形成年度采购计划。物资装备公司依据下年的生产经营综合计划向财务资产部报次年采购计划及资金使用计划。 2.编制月份采购计划: ⑴.各分厂材料员根据《下月产量生产计划》编制《物资月计划申请表》,记录材料名称、规格型号、单位、计划领用数量等信息。 ⑵.各分厂各工段向材料员申报领用物资,分厂材料员签字,先后由申报部门领导、归口部门、公司主管领导审批,签字后上报物资装备公司。 ⑶.物资装备公司计划员按照采购物资类别、规格型号、保管员以及采购业务员分类汇总成册形成物资月需求计划汇总表并与仓储保管员进行采购物资库存平衡工作确定净采购量。目前参与库存平衡的物资来源于动力分厂、氯碱分厂、树脂分厂、电仪分厂、检修分厂、质检环保心和仓储心申报的部门月物资计划。 ⑷.物资装备公司计划员依据物资采购的金额划分成不同的类别,采购金额在5万元以下的直接安排业务员进行零星采购;采购金额在5万元以上50万元以下的进行采购合同评审;采购金额超过50万元以上的交付战研心组织项目招标、议标和项目合同评审。 ⑸.分配采购任务并下发业务员采购。对于月需求计划所采购物资,大多属于市内采购,业务员在一周之内将月计划所需物资采购完毕,填写采购清单,经过库管员点货、验货后签字,将货物入库。 3.对于临时采购计划。主要为项目、技措、大修计划。包括日常随时所需,月计划内未考虑的各类物资,主要为新增设备、工矿配件、仪器仪表、安装钢材、水暖阀门、电器材料、轻化建材等以及根据项目进度所需的各类项目材料,目前占临时计划的2/3量。  分厂各工段向材料员申报领用物资——各分厂材料员根据各工段申报物资情况,编制临时采购计划,填写申请单位、名称、型号、单

7,388

社区成员

发帖
与我相关
我的任务
社区描述
其他数据库开发 数据仓库
社区管理员
  • 数据仓库
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧