大数据存储与处理-数据流挖掘.pptx下载

weixin_39820535 2023-01-21 10:00:26
大数据存储与处理-数据流挖掘.pptx , 相关下载链接:https://download.csdn.net/download/sun13212715744/87365906?utm_source=bbsseo
...全文
4 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
大数据导论》 熟悉大数据的定义 大数据导论-2全文共23页,当前为第1页。 所谓大数据,狭义上可以定义为:用现有的一般技术难以管理的大量数据的集合。 对大量数据进行分析,并从中获得有用观点,这种做法在一部分研究机构和大企业中,过去就已经存在了。现在的大数据和过去相比,主要有三点区别: 第一,随着社交媒体和传感器网络等的发展,在我们身边正产生出大量且多样的数据; 第二,随着硬件和软件技术的发展,数据的存储处理成本大幅下降; 第三,随着云计算兴起,大数据存储处理环境已经没有必要自行搭建。 一、大数据的定义 大数据导论-2全文共23页,当前为第2页。 所谓"用现有的一般技术难以管理",例如是指用目前在企业数据库占据主流地位的关系型数据库无法进行管理的、具有复杂结构的数据;或者也可以说,是指由于数据量的增大,导致对数据的查询(Query)响应时间超出允许范围的庞大数据。 研究机构Gartner给出了这样的定义:"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 一、大数据的定义 大数据导论-2全文共23页,当前为第3页。 麦肯锡说:"大数据指的是所涉及的数据集规模已经超过了传统数据库软件获取、存储、营理和分析的能力。这是一个被故意设计成主观性的定义,并且是一个关于多大的数据集才能被认为是大数据的可变定义,即并不定义大于一个特定数字的TB才叫大数据。因为随着技术的不断发展,符合大数据标准的数据集容量也会增长;并且定义随不同的行业也有变化,这依赖于在一个特定行业通常使用何种软件和数据集有多大。因此,大数据在今天不同行业中的范围可以从几十TB到几PB。" 一、大数据的定义 大数据导论-2全文共23页,当前为第4页。 随着"大数据"的出现,数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值的利用正逐渐成为行业人士争相追捧的利润焦点,在全球引领了又一轮数据技术革新的浪潮。 一、大数据的定义 大数据导论-2全文共23页,当前为第5页。 从字面来看,"大数据"这个词可能会让人觉得只是容量非常大的数据集合而已。但容量只不过是大数据特征的一个方面,如果只拘泥于数据量,就无法深入理解当前围绕大数据所进行的讨论。因为"用现有的一般技术难以管理"这样的状况,并不仅仅是由于数据量增大这一个因素所造成的。 IBM说:"可以用3个特征相结合来定义大数据:数量(Volume,或称容量)、种类(Variety,或称多样性)和速度(Velocity),或者就是简单的3V,即庞大容量、极快速度和种类丰富的数据" 。 二、大数据的3V和5V特征 大数据导论-2全文共23页,当前为第6页。 二、大数据的3V和5V特征 大数据导论-2全文共23页,当前为第7页。 (1)Volume(数量) 最初考虑到数据的容量,是指被大数据解决方案所处理的数据量大,并且在持续增长。数据容量大能够影响数据的独立存储处理需求,同时还能对数据准备、数据恢复、数据管理的操作产生影响。如今,存储的数据数量正在急剧增长中,我们存储所有事物,包括:环境数据、财务数据、医疗数据、监控数据等。有关数据量的对话已从TB级别转向PB级别,并且不可避免地会转向ZB级别。可是,随着可供企业使用的数据量不断增长,可处理、理解和分析的数据的比例却不断下降。 二、大数据的3V和5V特征 大数据导论-2全文共23页,当前为第8页。 典型的生成大量数据的数据源包括: (1)在线交易,例如官方在线销售点和网银。 (2)科研实验,例如大型强子对撞机和阿塔卡玛大型毫米及次毫米波阵列望远镜。 (3)传感器,例如GPS传感器,RFID标签,智能仪表或者信息技术。 (4)社交媒体、脸书、推特、微信、QQ等。 二、大数据的3V和5V特征 大数据导论-2全文共23页,当前为第9页。 (2)Variety(种类、多样性) 数据多样性指的是大数据解决方案需要支持多种不同格式、不同类型的数据。数据多样性给企业带来的挑战包括数据聚合、数据交换、数据处理和数据存储等。 随着传感器、智能设备以及社交协作技术的激增,企业中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括单击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。 二、大数据的3V和5V特征 大数据导论-2全文共23页,当前为第10页。 种类表示所有的数据类型。其中,爆发式增长的一些数据,如互联网上的文本数据、位置信息、传感器数据、视频等,用企业中主流的关系型数据库是很难存储的,它们都属于非结构化数据。 当然,在这些数据中,有一些是过去就一直存在并保存下来的。和过去不同的是,除了存储,还需要对这些大数据进行分析,并从中获得有用
量变到质变 大数据大数据技术 虞强 2016.10 大数据大数据技术(1)全文共58页,当前为第1页。 议程 公司简介 大数据大数据技术 大数据技术应用 大数据案例分享 问题讨论 Advanced Analytic Service All Rights Reserved 2016 2 大数据大数据技术(1)全文共58页,当前为第2页。 公司简介 公司概况&发展历史 主要客户&大数据产品 Advanced Analytic Service All Rights Reserved 2016 3 大数据大数据技术(1)全文共58页,当前为第3页。 新加坡 上海 北京 公司概况 青岛 雅加达 专注于分析预测与行业应用的的大数据公司 深圳 业务1 业务2 业务3 提供基于大数据技术的预测性分析及商务智能解决方案 大数据平台、数据集成与准备工具、开源开发技术 自助式分析工具、数据可视化工具 提供全球顶尖的大数据软件产品 300+ 技术服务人员 端到端的大数据平台 数据集成、数据挖掘与预测性分析、高级分析 企业级大数据仓库、企业绩效管理、商务智能 大数据SaaS应用和DaaS服务 基于云平台的软件即服务大数据应用 为企业提供全面的数据服务 大数据大数据技术(1)全文共58页,当前为第4页。 发展历史 数据仓库 绩效管理 高级分析 数据可视化 看板管理 商务智能2.0 至今 2005 2007 2011 2002 大数据技术 大数据应用 分析预测 数据挖掘 数据即服务 数据集市 14年来, 我们与数俱进 大数据大数据技术(1)全文共58页,当前为第5页。 汽车制造 · 电子产品及家电 · 快消零售 · 医药与生命科学 · 航空与物流 · 高科技制造业 · 金融及其他 主要客户 大数据大数据技术(1)全文共58页,当前为第6页。 云 以 H a d o o p 为核心的大数据产品系列 数据集成与准备 SQL on Hadoop Text here 流计算 机器学习 开源开发技术 数据挖掘 以 H a d o o p为核心的大数据产品 大数据软件产品 Statistica 数据 可视化 Vortex 大数据大数据技术(1)全文共58页,当前为第7页。 数据 创新 经验 融合 拥有多元化的数据科学家团队和十余年的数据分析经验。经十余年自主开发的IP打造数据行业领先的技术优势。 追踪吸收和引进行业内最先进的技术,产品和应用经验。世界顶尖数据技术公司在中国地区的首选合作伙伴。 在一大批竞争行业(汽车、制药、快消、家电、物流等)内拥有深厚的客户基础和众多行业成功案例。 追求行业业务能力和技术能力的融合以及企业系统架构与解决业务问题间的平衡,具有扎实的项目实施能力。 HEADLINE 竞争优势 大数据大数据技术(1)全文共58页,当前为第8页。 Advanced Analytic Service All Rights Reserved 2016 9 大数据大数据技术 大数据大数据技术(1)全文共58页,当前为第9页。 Hadoop技术的发展 物联网应用需要将Hadoop变为一个高性能的分析平台 需要Hadoop不光能存储数据,更要能够处理计算数据 大数据大数据技术(1)全文共58页,当前为第10页。 SQL 分析 挖掘预测 图形化数据分析 智能搜索 时间、用户、地理位置、事件 等标签 辅助技术: Kafka, HBase, Cassandra, Accumulo 基于大数据技术的数据分析处理 Hadoop 核心层 数据准备 大数据大数据技术(1)全文共58页,当前为第11页。 技术更迭过快 开源产品成熟度 开发效率 与现有架构的关系 运维与安全 大数据技术的顾虑 ? 大数据大数据技术(1)全文共58页,当前为第12页。 大数据平台计算框架 传统数仓功能 非结构化流式挖掘分析 大数据大数据技术(1)全文共58页,当前为第13页。 软件架构 (举例) DATA PLATFORM(HDFS) 灵活数据准备 SQL in Hadoop 数据挖掘与预测 S Q L(ODBC、JDBC、、。NET) API:Java, C/++, Python 前端应用 报表 外部应用 下游系统 管理控制台 (CloudEra、Talend、KNIME) 数据安全以及认证(Portal集成) 大数据大数据技术(1)全文共58页,当前为第14页。 用工具取代代码作坊 MapReduce Performance (runs on disk) One Click Spark Performance (runs in-memory & on disk) 20X Faster 大数据大数据技术(1)全文共58页,当前为第15页。 同时处理实时与批次 流式处理

12,781

社区成员

发帖
与我相关
我的任务
社区描述
CSDN 下载资源悬赏专区
其他 技术论坛(原bbs)
社区管理员
  • 下载资源悬赏专区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧