基于数据仓库的数据挖掘技术.pptx下载

weixin_39820835 2023-01-20 18:30:13
基于数据仓库的数据挖掘技术.pptx , 相关下载链接:https://download.csdn.net/download/sun13212715744/87365447?utm_source=bbsseo
...全文
4 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
数据仓库数据集市BI数据分析介绍 数据仓库数据集市BI数据分析介绍全文共35页,当前为第1页。 议程 数据仓库概念及由来 基本概念 产生背景 数据仓库搭建 数据整合 数据建模 数据管控 3. Oracle数据仓库产品介绍 数据仓库数据集市BI数据分析介绍全文共35页,当前为第2页。 什么是数据仓库 广州市品高软件开发有限公司 3 一个面向主题的、集成的、非易失性的、随时间变化的数据的集合,以用于支持管理层决策过程。 数据仓库数据集市BI数据分析介绍全文共35页,当前为第3页。 数据仓库的特点 广州市品高软件开发有限公司 4 面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 集成的:面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 相对稳定的:操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 反映历史变化:操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 数据仓库数据集市BI数据分析介绍全文共35页,当前为第4页。 几个相关的概念 广州市品高软件开发有限公司 5 BIBusiness Intelligence,即商业智能,一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用 数据集市:面向特定主题和部门级的数据仓库,是数据仓库的子集,数据仓库是 提供跨部门的,统一数据视图 OLAP On-Line Analytical Processing是数据仓库系统的主要应用,支持复杂的分析操作 ,侧重决策支持,并且提供直观易懂的查询结果 数据挖掘从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等 OLTP on-line transaction processing,传统的关系型数据库的主要应用,主要是基本的 、日常的事务处理,例如银行交易 数据仓库数据集市BI数据分析介绍全文共35页,当前为第5页。 数据仓库与OLTP系统的差别 广州市品高软件开发有限公司 6 对比项 OLTP 数据仓库(OLAP) 用户 操作人员、底层管理人员 决策人员,高级管理人员 功能 日常操作处理 分析决策 DB设计 面向应用 面向主题 数据 原始数据、细节性数据、当前值数据、可更新、一次处理的数据量小 导出数据、综合性数据、历史数据、不可更新但周期性刷新,一次处理的数据量大 工作单位 简单的事务 复杂的查询 用户数 上千个 上百个 DB大小 100MB-GB 100GB-TB 数据仓库数据集市BI数据分析介绍全文共35页,当前为第6页。 数据仓库是怎么产生的 广州市品高软件开发有限公司 7 在数据库技术的支持下,一大批成熟的业务信息系统投入运行,为企业发展做出了巨大贡献。各类信息系统大多属于面向事务处理的OLTP系统,经过多年的运行,积累了大量的数据,而管理决策层对数据分析基础平台的需求却日益强烈。 数据可信性:两个部门提供的数据是不一样的,让管理者无所适从 报表的生产率问题:由于OLTP的单项系统导致数据的分散性和相同元素定义不一致所致不可能把数据转换成信息 数据动态集成问题:不同的需求,要求将操作型环境和分析型环境相分离 历史数据问题:单项系统之间保留的历史数据时间范围不一致,无法满足DSS分析的需要数据的综合问题:非细节数据、多种程度的综合 提升现有的信息: 数据仓库数据集市BI数据分析介绍全文共35页,当前为第7页。 数据仓库解决的问题 1. 企业范围内的信息共享 2. 准确、一致的集成数据 3. 面向整个企业和最终用户,针对分析需要,进行数据重组,形成一套全新的、相对完整的数据视图,能够进行快速访问,精确、灵活分析 数据仓库数据集市BI数据分析介绍全文共35页,当前为第8页。
数据分析技术与方法 20150108 数据分析方法与技术全文共66页,当前为第1页。 2 数据分析时代背景 第一部分 数据分析平台技术 第二部分 数据仓库建模方法 第三部分 目 录 数据分析与数据挖掘 第四部分 数据分析方法与技术全文共66页,当前为第2页。 数据量增加 TB PB ZB EB 根据IDC 监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。 数据结构日趋复杂 大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长 这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴 大数据时代正在来临… 数据分析时代的背景 数据分析方法与技术全文共66页,当前为第3页。 体量Volume 多样性Variety 价值密度Value 速度Velocity 非结构化数据的超大规模和增长 占总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等) 实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效 大数据的4V特征 "大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)" 数据分析方法与技术全文共66页,当前为第4页。 Volume 海量的数据规模 Variety 多样的数据类型 Value Velocity 快速的数据流转 发现数据价值 要解决的问题 大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取数据价值(value),将是IT 领域新一代的技术与架构。 数据分析方法与技术全文共66页,当前为第5页。 分析技术: 统计和分析:A/B test; top N排行榜;地域占比;文本情感分析 数据挖掘:关联规则分析;分类;聚类 模型预测:预测模型;机器学习;建模仿真 数据处理相关技术 海量数据存储: 结构化数据: 海量数据的查询、统计、更新等操作效率低 非结构化数据 图片、视频、word、pdf、ppt等文件存储 不利于检索、查询和存储 半结构化数据 转换为结构化存储 按照非结构化存储 解决方案: Hadoop(MapReduce技术) 流计算(twitter的storm和yahoo!的S4) Spark(基于内存的分布式计算) 大数据技术: 数据采集:ETL工具 数据存取:关系数据库;NoSQL;SQL 基础架构支持:云存储;分布式文件系统 计算结果展现:云计算;标签云;关系图 数据分析方法与技术全文共66页,当前为第6页。 数据处理与分析框架 HIVE Pig! 分布式 文件系统 海量 数据存储 大规模计算 智能 分析算法 Zoo Keeper 明细数据 E T L 报表展示 数据分析 数据挖掘 元数据管理 数据质量监控 数据监控 数据集市 数据应用 汇总加工数据 数据应用 数据仓库 源数据 数据平台技术 数据仓库架构 数据采集 数据处理 数据分析方法与技术全文共66页,当前为第7页。 8 数据分析时代背景 第一部分 数据分析平台技术 第二部分 数据仓库建模方法 第三部分 HDFS+MapReduce+Hive Storm+Spark 数据分析与数据挖掘 第四部分 目 录 数据分析方法与技术全文共66页,当前为第8页。 9 不同分析场景解决方案 根据响应时长可以将应用需求进行如下划分: 实时应用场景(0~5s): Storm、S4、Cloudera Impala,Apache Drill等; 交互式场景(5s~1m): 最好支持SQL,: Shark 、Cloudera Impala、Apache Drill等; 非交互式场景(1m~1h): MapReduce、Hive、Pig、Stinger等; 批处理场景(1h+) 运行时间较长,处理数据量较大,对容错性和扩展性要求较高 MapReduce、Hive、Pig、Stinger等。 数据分析方法与技术全文共66页,当前为第9页。 Hadoop 生态系统 External Data Sources HDFS storage layer Processing Framework (Map-Reduce) HBase Sqoop + Flume Pig HiveQL Mahout Hive Metastore (HCatalog
量变到质变 大数据与大数据技术 虞强 2016.10 大数据与大数据技术全文共59页,当前为第1页。 议程 公司简介 大数据与大数据技术 大数据技术应用 大数据案例分享 问题讨论 Advanced Analytic Service All Rights Reserved 2016 2 大数据与大数据技术全文共59页,当前为第2页。 公司简介 公司概况&发展历史 主要客户&大数据产品 Advanced Analytic Service All Rights Reserved 2016 3 大数据与大数据技术全文共59页,当前为第3页。 新加坡 上海 北京 公司概况 青岛 雅加达 专注于分析预测与行业应用的的大数据公司 深圳 业务1 业务2 业务3 提供基于大数据技术的预测性分析及商务智能解决方案 大数据平台、数据集成与准备工具、开源开发技术 自助式分析工具、数据可视化工具 提供全球顶尖的大数据软件产品 300+ 技术服务人员 端到端的大数据平台 数据集成、数据挖掘与预测性分析、高级分析 企业级大数据仓库、企业绩效管理、商务智能 大数据SaaS应用和DaaS服务 基于云平台的软件即服务大数据应用 为企业提供全面的数据服务 大数据与大数据技术全文共59页,当前为第4页。 发展历史 数据仓库 绩效管理 高级分析 数据可视化 看板管理 商务智能2.0 至今 2005 2007 2011 2002 大数据技术 大数据应用 分析预测 数据挖掘 数据即服务 数据集市 14年来, 我们与数俱进 大数据与大数据技术全文共59页,当前为第5页。 汽车制造 · 电子产品及家电 · 快消零售 · 医药与生命科学 · 航空与物流 · 高科技制造业 · 金融及其他 主要客户 大数据与大数据技术全文共59页,当前为第6页。 云 以 H a d o o p 为核心的大数据产品系列 数据集成与准备 SQL on Hadoop Text here 流计算 机器学习 开源开发技术 数据挖掘 以 H a d o o p为核心的大数据产品 大数据软件产品 Statistica 数据 可视化 Vortex 大数据与大数据技术全文共59页,当前为第7页。 数据 创新 经验 融合 拥有多元化的数据科学家团队和十余年的数据分析经验。经十余年自主开发的IP打造数据行业领先的技术优势。 追踪吸收和引进行业内最先进的技术,产品和应用经验。世界顶尖数据技术公司在中国地区的首选合作伙伴。 在一大批竞争行业(汽车、制药、快消、家电、物流等)内拥有深厚的客户基础和众多行业成功案例。 追求行业业务能力和技术能力的融合以及企业系统架构与解决业务问题间的平衡,具有扎实的项目实施能力。 HEADLINE 竞争优势 大数据与大数据技术全文共59页,当前为第8页。 Advanced Analytic Service All Rights Reserved 2016 9 大数据与大数据技术 大数据与大数据技术全文共59页,当前为第9页。 Hadoop技术的发展 物联网应用需要将Hadoop变为一个高性能的分析平台 需要Hadoop不光能存储数据,更要能够处理计算数据 大数据与大数据技术全文共59页,当前为第10页。 SQL 分析 挖掘预测 图形化数据分析 智能搜索 时间、用户、地理位置、事件 等标签 辅助技术: Kafka, HBase, Cassandra, Accumulo 基于大数据技术的数据分析处理 Hadoop 核心层 数据准备 大数据与大数据技术全文共59页,当前为第11页。 技术更迭过快 开源产品成熟度 开发效率 与现有架构的关系 运维与安全 大数据技术的顾虑 ? 大数据与大数据技术全文共59页,当前为第12页。 大数据平台计算框架 传统数仓功能 非结构化流式挖掘分析 大数据与大数据技术全文共59页,当前为第13页。 软件架构 (举例) DATA PLATFORM(HDFS) 灵活数据准备 SQL in Hadoop 数据挖掘与预测 S Q L(ODBC、JDBC、、。NET) API:Java, C/++, Python 前端应用 报表 外部应用 下游系统 管理控制台 (CloudEra、Talend、KNIME) 数据安全以及认证(Portal集成) 大数据与大数据技术全文共59页,当前为第14页。 用工具取代代码作坊 MapReduce Performance (runs on disk) One Click Spark Performance (runs in-memory & on disk) 20X Faster 大数据与大数据技术全文共59页,当前为第15页。 同时处理实时与批次 流式处理 批次处理 转换 清洗 治理 转换 清洗 治理 推荐引擎 Spark Streaming/

12,799

社区成员

发帖
与我相关
我的任务
社区描述
CSDN 下载资源悬赏专区
其他 技术论坛(原bbs)
社区管理员
  • 下载资源悬赏专区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧