到底大型数据库和数据仓库之间有什么不同,它们有哪些区别阿

zhxzhx 2003-10-17 09:26:35

哪位大大帮我解答一下

...全文

94 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

ygjygj 2003-10-22

打赏
举报

回复

先从理论上看，再从实际上看，差别很多的，只有做了才知道、

huanyu007 2003-10-21

打赏
举报

回复

数据仓库中一般采用多维度数据仓库也称OLAP，
在商业智能应用中一般存放的在不同的数据库中抽取、清洗、转换过后的数据

pb_yu 2003-10-20

打赏
举报

回复

1。数据库主要是解决行业业务上的问题，动态
2。数据仓库是数据积累，静态分析
所以数据存储的物理方法，查询算法也不同

shibamo 2003-10-20

打赏
举报

回复

数据仓库有一个整合的作用,它从别的一个或多个oltp系统中抽取用户感兴趣的数据,整理后并集中在一起,为用户对整个经营状况的了解提供全面的数据支持.

wawaren 2003-10-17

打赏
举报

回复

这个问题可以从两个方面来考虑：一个是物理层面，一个是逻辑层面。
从物理层面来说，数据仓库也就是一堆表格，在现在的系统中，它一般也就是存放在关系数据库中的，由于数据仓库的数据量一般都很大，所以就形成了一个大型数据库。
从逻辑层面来说，并不是所有的大型数据库都是数据仓库，数据仓库有其本身的定义，这个你可以参见其他一些文章，传统的OLTP系统也都是大型数据库，但是这些绝对不是数据仓库。
不知道这么简单的解释一下是否有效果，如果有什么问题的话，大家可以继续交流。

2015/6/3 1 第三章 数据仓库的基本结构 Data Warehouse 2015/6/3 2 一个完整的数据仓库的体系结构一般由三个层次组成，它们是： 1) 数据源（Data Source） 2) 数据仓库（Data Warehouse） 3) 数据集市（Data Mart）三者之间通过数据仓库管理软件联系起来构成一个完整的数据体系。 3 数据仓库的基本结构 Data Warehouse 2015/6/3 3 数据仓库管理软件 ORACLE SYBASE SQL Server 文件 …… 数据集市数据集市数据集市建模 数据仓库 元数据管理抽取 …… 数据仓库系统示意图 3 数据仓库的基本结构 Data Warehouse 2015/6/3 4 多数据源 数据仓库的数据来源于多个数据源。不同格式的数据：由于企业在长期事务处理过程中随数据库管理系统本身发展，形成了企业内从简单到复杂、从小型到大型的各种，其中有大型关系数据库、对象数据库、桌面数据库、各种非格式化的数据文件等。不同的数据操作平台：多种关系数据库操作平台不同的物理位置数据源

随着人们对大型数据系统研究、管理、维护等方面的深刻识认和不断完善，在总结、丰富、集中多行企业信息的经验之后，为数据仓库给出了更为精确的定义，即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”。

数据仓库并没有严格的数学理论基础，也没有成熟的基本模式，且更偏向于工程，具有强烈的工程性。因此，在技术上人们习惯于从工作过程等方面来分析，并按其关键技术部份分为数据的抽取、存储与管理以及数据的表现等三个基本方面。

　　⑴数据的抽取：数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境，它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。数据仓库中的数据并不要求与联机事务处理系统保持实时同步，因此数据抽取可以定时进行，但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。

　　⑵存储和管理：数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库，同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心，则需要从数据仓库的技术特点着手分析。

　　⑶数据的表现：数据表现实际上相当于数据仓库的门面，其性能主要集中在多维分析、数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式，近几年来由于互联网的发展，使得多维分析领域的工具和产品更加注重提供基于Web前端联机分析界面，而不仅仅是在网上发布数据。

　　提到数据仓库，人们难免会想到仅有一字之差的数据库，那么，数据仓库和我们经常提到的数据库有哪些区别呢？为什么要使用数据仓库呢？

从数据库到数据仓库
　　市场需求是技术发展的源动力。在数据库应用的早期，计算机系统所处理的是从无到有的问题，是传统手工业务自动化的问题。例如银行的储蓄系统、电信的计费系统，它们都属于典型的联机事务处理系统。在当时，一个企业可以简单地通过拥有联机事务处理的计算机系统而获得强大的市场竞争力。记得在80年代末，北京工商银行率先推出了全市个人储蓄通存通兑业务，广大市民便将先前就近存于不同银行的存款一并取出而存入了工商银行。这便是通过联机事务处理系统而获得市场优势的案例。其次，当时单位容量的联机存储介质比现在昂贵得多，相对于市场竞争的压力，将大量的历史业务数据长时间联机保存去用于分析显然是过于奢侈了。因此，联机事务处理系统只涉及当前数据，系统积累下的历史业务数据往往被转储到脱机的环境中。此外，在计算机系统应用的早期，还没有积累大量的历史数据可供统计与分析。从而，联机事务处理成为整个80年代直到90年代初数据库应用的主流。

　　然而，应用在不断地进步，当联机事务处理系统应用到一定阶段的时候，企业家们便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势；他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析，从而做出有利的决策。同样就拿北京各银行的储蓄业务来说，如今各家都拥有了联网的储蓄系统，再要获得市场竞争的优势，就需要在决策上下功夫，例如在业务密集地区增设自助网点、推出有针对性(如：某类职业圈、某年龄段)的储蓄服务计划。这些决策需要对大量的业务数据包括历史业务数据进行分析才能得到，而这种基于业务数据的决策分析，我们把它称之为联机分析处理。如果说传统联机事务处理强调的是更新数据库——向数据库中添加信息，那么联机分析处理就是要从数据库中获取信息、利用信息。因此，著名的数据仓库专家Ralph Kimball写道：“我们花了20多年的时间将数据放入数据库，如今是该将它们拿出来的时候了。”

　　事实上，将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。但在实际的操作中，人们却发现要获得有用的信息并非想象的那么容易：第一，所有联机事务处理强调的是数据更新处理性能和系统的可靠性，并不关心数据查询的方便与快捷；联机分析和事务处理对系统的要求不同，同一个数据库在理论上难以做到两全；第二，业务数据往往被存放于分散的异构环境中，不易统一查询访问，而且还有大量的历史数据处于脱机状态，形同虚设；第三，业务数据的模式是针对事务处理系统而设计的，数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。于是，有人感叹：20年前查询不到数据是因为数据太少了，而今天查询不到数据是因为数据太多了。针对这一问题，人们专门为业务的统计分析建立一个数据中心，它的数据可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到；它是一个联机的系统，专门为分析统计和决策支持应用服务，通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。如果需要给数据仓库一个定义的话，那么可以把它看作一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获取信息。

　　那么数据仓库与数据库(主要指关系数据库)又是什么关系呢？回想当初, 人们固守封闭式系统是出于对事务处理的偏爱, 人们选择关系数据库是为了方便地获得信息。我们只要翻开 C.J. Date博士的经典之作《An Introduction to Database Systems》便会发现：今天数据仓库所要提供的正是当年关系数据库要所倡导的。然而，“成也萧何,败也萧何”，由于关系数据库系统在联机事务处理应用中获得的巨大成功，使得人们已不知不觉将它划归为事务处理的范畴；过多地关注于事务处理能力的提高，使得关系数据库在面对联机分析应用时又显得“老革命遇到新问题”——今天的数据仓库对关系数据库的联机分析能力提出了更高的要求，采用普通关系型数据库作为数据仓库在功能和性能上都是不够的，它们必须有专门的改进。因此，数据仓库与数据库的区别不仅仅是应用的方法和目的上的，同时也涉及产品和配置。

　　以辩证的眼光来看，数据仓库的兴起实际上是数据管理的一种回归，是螺旋式的上升。今天的数据库就好比当年的层次数据库和网型数据库，它们面向事务处理；今天的数据仓库就好比是当年的关系数据库，它针对联机分析。所不同的是，今天的数据仓库不必再为联机事务处理的特性而奔忙，由于技术的专业化，它可更专心于联机分析领域的发展和探索。

　　从厂商的角度看，经过长期发展，联机事务处理系统的市场至90年代中期出现饱和迹象，其增长速度明显减慢。这导致各大数据库厂商的传统业务增长面临严峻挑战，寻求新的业务增长点成为他们的当务之急。数据仓库的兴起无疑为数据库产品创造了巨大的市场，它成为20世纪末到21世纪初数据库市场的一个新的增长点。因此，数据仓库这个词儿打一开始便伴随着轰轰烈烈的市场炒作。对于广大用户来说，只有从自身应用需求出发，破除技术和概念的神秘性，奉行“拿来主义”，避虚就实，密切关注技术发展的方向，方可获得满意的产品、解决方案和经济效益。

　　总之，数据仓库并非是一个仅仅存储数据的简单信息库，因为这实际上与传统数据库没有两样。数据仓库实际上是一个“以大型数据管理信息系统为基础的、附加在这个数据库系统之上的、存储了从企业所有业务数据库中获取的综合数据的、并能利用这些综合数据为用户提供经过处理后的有用信息的应用系统”。如果说传统数据库系统的重点与要求是快速、准确、安全、可靠地将数据存进数据库中的话，那么数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出数据，经过加工转换成有规律信息之后，再供管理人员进行分析使用。

本版的新内容这一版中的新内容和特色将使学生和本书的其他读者受益，其中包括： ● 使用Microsoft Access 2010演示和强调数据库的创建和使用原则。本书把对Microsoft Access和其他Microsoft Office产品(如Excel)的所有引用都修订为最新发布的Microsoft Office 2010版本。 ● 本书的更新表现为使用Microsoft SQL Server 2008/2008 R2 Express版本。尽管书中大多数主题都向后兼容Microsoft SQL Server 2005 Express版本，但均专门使用SQL Server 2008和Office 2010。 ● 本书中的更新还表现为使用MySQL Workbench作为MySQL 5.1的唯一数据库开发工具。本书第4版使用的MySQL GUI工具被MySQL在2009年12月18日宣布停止使用。目前的MySQL Workbench 5.2.x集成了MySQL GUI工具的功能，这一版就使用它。 ● 使用Microsoft Windows 7操作系统作为本书的工作站操作系统。上一版使用的是Windows XP和Windows Vista操作系统，而这一版更新为最新的Microsoft工作站操作系统。 ● 添加了附录C“系统分析和设计入门”。这个新附录为没有学习过这方面课程的学生或读者介绍了系统分析和设计概念，论述了收集数据建模所需输入信息的基本方法(参见第4章)，并在应用程序开发的过程中融入了数据库开发。此附录包含在本书配书光盘中。 ● 添加了附录D“Microsoft Visio 2010入门”。这个新附录介绍了如何使用Microsoft Visio 2010进行数据建模(参见第4章)和数据库设计(参见第5章)。此附录包含在本书配书光盘中。 ● 添加了附录E“Web服务器、PHP和Eclipse PDT入门”。这个新附录介绍了如何安装和使用Microsoft IIS Web服务器、PHP和用于Web数据库应用程序开发的Eclipse PDT IDE(参见第7章)。此附录包含在本书配书光盘中。必要的基本概念如果不学习基本概念，只靠现有的技术就不可能成功使用DBMS。凭借多年来为商业用户开发数据库的经验，我们认为下面的数据库概念非常重要： ● 关系模型的基本概念 ● 结构化查询语言(SQL) ● 数据建模 ● 数据库设计 ● 数据库管理由于当前Internet、World Wide Web和分析工具的广泛使用，因此另外增加两个基本概念： ● Web数据库处理 ● 商业智能(BI)系统像Colin这样的用户(或将来从事类似工作的学生)不需要像信息系统专家那样深入地了解这些主题。因此，本书只介绍最基本的概念，足以帮助Colin这样的用户创建和使用小型数据库了。本书的许多内容在David M.Kroenke和David J.Auer的Database Processing: Fundamentals, Designs, and Implementation1一书的基础上进行了重写和简化。不过在本书内容上我们也力求讨论准确，不会产生误导。即使学生已学习过更高级的数据库课程，也可从中获益。独立于DBMS产品的概念本书假设学生没有使用过任何特殊的DBMS产品，我们通过Microsoft Access、SQL Server Express版和MySQL来演示数据库概念，使学生可以将这些产品作为工具真正试验书中的内容，而这些概念都是以DBMS无关的方式出现。通过这种方式学习，学生可以掌握适用于任意数据库的基本原则，包括小型的Microsoft Access数据库到大型的Oracle或DB2数据库。而且这一方法也避免了一个常见的问题：在同时介绍概念和产品时，学生容易混淆概念与产品特性和功能。例如，在讲授参照完整性约束时，如果从概念的角度讲授会说明这时一个表中的列值必须总是由另一个表中的列值提供，并解释这一约束出现在关系定义的上下文中的方式，以及DBMS或应用程序如何强制执行这一约束。如果结合具体的DBMS讲授如Microsoft Access，学生就只知道：在某些情况下选取复选框，而在其他情况下不选取。这很容易导致学生在学习产品特性时，会淡忘数据库的基本概念。这并不是说教学中不应使用DBMS。相反，学生们可以通过使用商业DBMS产品来更好掌握这些概念。本书的这一版包括Microsoft Access、SQL Server Express版和MySQL的足够多的基础信息，使您无需其他书籍或资料就可以在课堂上使用这些产品。本书还深入介绍了Microsoft Access，因为它是一个非常流行的个人数据库产品，并且包括在Microsoft Office Professional应用程序套件中。但如果希望深入理解特定的DBMS或使用本书没有介绍的DBMS产品，则需要额外的书籍或资料。Prentice Hall提供了Microsoft Access 2010和其他DBMS产品的大量图书，可以结合本书一起学习。 Access工作台本书的这一版继续使用首次在第3版引入的特征—— “Access工作台”。由于Microsoft Access广泛用于初级数据库课程，因此介绍使用Microsoft Access的特定信息比较重要。每一章都带有一个“Access工作台”部分，其中使用Microsoft Access来演示本章的概念和技术。“Access工作台”部分在第1章中介绍了如何创建数据库和单个表，逐渐转移到不同主题，到最后第7章介绍相对于Microsoft Access数据库的Web数据库处理，和第8章介绍使用Microsoft Access和Microsoft Excel生成PivotTable OLAP报表。本书并非试图全面论述Microsoft Access，而是介绍所有必要的基本Access主题，使学生可以有效地构建并使用Microsoft Access数据库。重要术语、复习题、练习题和项目学生能否运用所学的知识非常重要，因此每章都提供了重要术语表(本版新增)、复习题、练习题(包括针对“Access工作台”的练习题)和三个贯穿本书始终的项目。如果学生阅读并理解了每一章的内容，就应能掌握每个重要术语的含义、能完成复习题。练习题要求学生将每章所讲的概念应用到具体的小问题或任务中。第一个项目Garden Glory是有关一个向个人或企业提供园艺服务的合伙公司的数据库开发和使用。第二个项目James River珠宝行分析了为一家零售店实施常客计划的数据库需求。第三个项目Queen Anne Curiosity商店关注的是零售业的销售和库存需求。本书的所有章节都包括这三个项目。在每个实例中，都要求学生将各章的知识运用到项目中。教师会在教师手册中找到使用这些项目的更多信息，还可以从本书网站(www.pearsonhighered.com/kroenke)中受密码保护的教师部分获得数据库和数据。本书使用的软件与之前我们使用与DBMS无关的方式进行讨论一样，本书将尽可能选择独立于操作系统的软件，目前网络上有非常多的杰出软件可以使用，许多大的DBMS厂商都提供了其主要产品的免费版本(如Microsoft 的SQL Server Express版，Oracle公司的Oracle数据库和MySQL)，Web编辑器和集成开发环境(IDE)也很常用，例如Eclipse、NetBeans和Visual Studio Express版。PHP被认为是第四个最常用的编程语言，可以下载用于许多操作系统和Web服务器。所以尽管本书的示例是用Microsoft操作系统、SQL Server 2008/2008 R2 Express版、Microsoft Access 2010、Microsoft Excel 2010和IIS Web服务器创建的，但它们大都很容易用Linux、MySQL Server Community版、OpenOffice.org Base、OpenOffice.org Calc和Apache Web服务器创建。本书使用的一些软件产品，如PHP和Eclipse都可用于多种操作系统。在过去30多年中，我们已经发现数据库和数据库应用程序的开发是一项愉快且有回报的活动。我们相信：在将来数据库的数量、大小和重要性会不断增加，而该领域也越来越重要。希望本书介绍的概念、知识和技术帮助学生成功地参与到现在和多年后的数据库项目中。对第4版的改进本版最重要的改进是在全文和“Access工作台”每个部分都使用了Access 2010。由于推出了Microsoft Office 2010，本书做了更新以反映该产品中的变化。当然，我们还更新了本书所有其他产品的信息，尤其是本版使用Windows 7操作系统来演示本书中的应用程序，MySQL工作台现在是MySQL数据库开发的GUI。我们继续保持并改进了本书前几版引入的几个特性： ● 在每章中使用“Access工作台”介绍Microsoft Access的基础知识。 ● 介绍SQL Server 2008 R2 Express版(附录A)和Oracle MySQL Community Server 5.1(附录B)的用法。附录A和附录B包含在本书配书光盘中。 ● 使用示例数据集充分开发了在本书各个部分中使用的三个示例数据库：Wedgewood Pacific Corporation、Heather Sweeney Designs和Wallingford Motors。 ● 在Web数据库处理主题中使用PHP脚本语言和Eclipse IDE。 ● 扩充介绍了XML。 ● 扩充介绍了商业智能(BI)系统。 ● 介绍了多维数据库模型本版继续使用之前版本增加的较为有效的规范化讨论，使用一个四步过程来演示规范化关系的规定步骤。这种方法不仅简化了规范化任务，而且使规范化原理更易于理解，因此当前版本仍沿用了这一方法。教师如需更多了解范式，可参考第5章中介绍的大多数范式的简短定义。本书概要本书包括8章和5个附录(附录内容包含在本书配书光盘中)。第1章解释了使用数据库的原因、数据库各个组件和开发方法。学生将学习数据库及其应用程序的用途、数据库相对于电子表格列表的差别和优势。第2章介绍了关系模型，定义了基本的关系术语，还介绍了规范化原则的基本概念，并描述了规范化过程。第3章讲述了基本的SQL语句，介绍了定义数据的基本SQL语句，如SQL SELECT语句和数据修改语句。本书并不介绍高级的SQL语句，只讲述基本语句。接下来的两章讨论了数据库设计。第4章使用实体-关系(E-R)模型解决数据建模问题，其中包括对数据建模的需求、基本的E-R术语和概念，并提供了一个简短的E-R建模示例应用程序(Heather Sweeney Designs)。第5章讲述了数据库设计，解释了规范化的基本概念。第4章示例中的数据模型在第5章中则被转换为关系设计。最后三章讨论了数据库管理，以及数据库在应用程序中的使用。第6章概述了数据库管理，构建了一个作为功能数据库的示例数据库，并用作讨论数据库管理需求的示例。本章探讨了并发控制、安全性、备份及恢复技术。数据库管理主题很重要，因为它适用于所有数据库，即使是个人或单用户数据库也是如此。事实上，在某些方面这些主题对于小型数据库更重要，因为它们没有专业的数据库管理员来确保关键任务的执行。第6章也讨论了分布式数据库和面向对象的数据库。第7章介绍了使用基于Web的数据库处理，包括开放数据库连接(ODBC)和PHP脚本语言的使用。本章也讨论了可扩展标记语言(XML)的出现和基本概念。第8章介绍了商业智能(BI)系统和支持它们的数据仓库体系结构，还讨论了多维数据库，解释了如何为Heather Sweeney Designs建立多维数据库，并使用它生成PivotTable OLAP报表。附录A提供了SQL Server 2008 R2 Express版的简介，附录B则提供了MySQL 5.1的类似介绍。在每章的“Access工作台”中都包括了对Microsoft Access的介绍。附录C介绍了系统分析与设计，可以为第4章(数据建模)和第5章(数据库设计)提供参考。附录D简要介绍了Microsoft Visio 2010，可用作数据建模(第4章)和数据库设计(第5章)的工具。另一个有效的数据库设计工具是MySQL工作台，其用法参见附录B。最后，附录E给出了启动和运转Microsoft IIS Web服务器、PHP和Eclipse PHP开发工具(PDT)的详细指导，这些将有助于我们更好地学习第7章。在快速变化的环境下保持最新为使数据库的概念在各版中保持最新，我们将根据需要在本书的网站(www.pearsonhighered .com/kroenke)上贴出更新表。例如，发布Office 2007后，我们就贴上了Access 2007的内容，在课堂上使用Access 2007的教师就会有“Access工作台”部分和PowerPoint幻灯片的所需版本。教师资源和学生资料也可以从网站上获得，所以应时常浏览本书的网站。

夏洛特 Snort统一文件到数据库处理器，类似于仓库，但是可以更好地处理大型Snort部署介绍是许多IDS系统使用的完善的入侵检测和入侵防御服务。它生成包含警报信息的文件格式文件。一些系统本机使用此数据，但其他系统（例如需要将数据存储到数据库中。通常，这是通过工具完成的，该工具会提取统一文件并将其发送到数据库。但是，barnyard2具有一些夏洛特试图改善的缺点：最初是由snort数据库代码派生的，所以用C编写，这很难理解和改进 C是一种出色的语言，它快速且易于理解。但是，出现了其他语言，使它们更容易编写简单，可维护的代码。此外，由于barnyard2是从数据库代码中派生出来的，因此它继续存在一些不足，难以理解。每个“传感器”不处理多个snort实例在高带宽链接的部署中，通常您需要每个链接运行多个snort实例，使用东西来分发数据包。当您执行此操作时，最理想的是将所

前期回顾：⼤数据是如何产⽣的？大数据的特点是什么？什么是埋点？如何进行数据埋点？【超详细介绍】对于这么多种类，这么大体量的数据是如何存储的呢？所以数据仓库就应景而生了。目录数据仓库（数据是如何存储的）1 什么是数据仓库？2 数据仓库解决什么问题？3 数据仓库的主要特征4 数据仓库与数据库区别5 数据仓库架构6 数据仓库元数据管理什么是元数据？元数据具体的工作内容元数据分为技术元数据和业务元数据7 数据治理脏数据的种类数据治理原则知识拓展（数据集市）结束语 数据仓库（数据是如何存储的） 1 什么是数据

7,388

社区成员

6,742

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章