浅谈对大数据的认识

区区亚麻大 2019-05-06 10:57:04
大数据的概念是维克托・迈尔舍恩伯格和肯尼斯・库克耶于2008年提出的。指的是运用海量、高增长率、多样化的信息资产来具有更强的决策力、洞察力和流程优化能力。 大数据是继云计算、物联网之后信息技术领域的又一大热点,它作为新一轮技术革命的引擎,开启了一次重大的时代转型。它与云计算、物联网等新技术相结合,将日益深刻地改变人们的生产生活方式。准确把握大数据的时代脉搏,对促进产业转型、提升核心竞争力发挥着至关重要的作用。大数据理念的提出和发展是信息化建设的一个里程碑事件,标志着从建设信息系统到数据处理应用的阶段性转变。 大数据的特点是数量大,类型多,处理快速,价值高密度低。数据的数量级已经从TB发展到PB甚至ZB,可以说是巨量,海量。大数据包括了多为网页、图片、视频、图像与位置等半结构化和非结构化数据信息,种类繁多,而且处理速度快速化,保持快速持续的实时处理。因此,处理工具也在快速演进,软件工程及人工智能等均可能介入。大数据和它的体量一样,拥有巨大的价值。单个的数据的价值可能很小,但海量的数据汇聚成了巨大的数据库就意味着很大的价值。 大数据问题的核心就是大数据的分析和处理,也就是数据发掘。从海量的数据中筛选出有用数据并加以利用,快速发现有用信息。大数据指的不仅仅是它自身的体量大,也包括其数据的筛选和分析工具及平台。 在新一轮的科技革命刚刚兴起的今天,高新技术层出不穷,商品工具日新月异。数据作为一种基础资源正对资产结构产生巨大的影响,将会进入到社会的原始资本积累。如今,大数据已经深入到各个领域,其运用也越来越普及,大数据的合理运用将会使我们的生活愈加方便。 网络发展已经进入了云时代,大数据的开发与运用也越发受到重视。互联网作为数据的聚集地,每时每刻都有海量的数据在上面流通,借助大数据的理论和技术,发掘出有价值的数据,提供更优质的服务。 大数据是互联网发展到现阶段的一种表象或特征,在以云计算为代表的技术创新的衬托下,这些原本很难收集和使用的数据,开始被利用起来,通过各行各业地不断创新,大数据会逐步为人类创造更多的价值。
...全文
955 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
浅谈大数据技术及应用全文共5页,当前为第1页。浅谈大数据技术及应用全文共5页,当前为第1页。 浅谈大数据技术及应用全文共5页,当前为第1页。 浅谈大数据技术及应用全文共5页,当前为第1页。 浅谈大数据技术及应用(黑体小二) 哈尔滨商业大学管理学院物流工程2015 王兴哲 摘要:大数据的概念由来已久,但在多数人眼中大数据就是数据大,甚至有时和云计算混为一谈。本文主要对大数据的定义进行重新的认识,并将其与云计算加以区别。而在大数据流行的今天,大数据究竟带来了什么有利的影响,或者说它将有什么样的前景。这些问题都将在文中一一列举 关键词:大数据 云计算 应用 浅谈大数据技术及应用 引言 大数据这一术语正是产生在全球数据爆炸增长的背景下,用来形容庞大的数据集合。与传统的数据集合相比,大数据通常包含大量的非结构化数据,且大数据需要更多的实时分析。此外,大数据还为挖掘隐藏的价值带来了新的机遇,同时给我们带来了新的挑战,政府机构最近也宣布了一项加快大数据进程的重大计划,各行各业也都在积极讨论大数据的吸引力。 大数据时代的到来,是全球知名咨询公司麦肯锡最早提出的,麦肯锡称:"数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。"近几年大数据一词的持续升温也带来了大数据泡沫的疑虑,大数据代表了互联网的信息层(数据海洋),是互联网智慧和意识产生的基础。包括物联网,传统互联网,移动互联网在源源不断的向互联网大数据层汇聚数据和接受数据。 大数据的定义 一般意义上,大数据是指无法在有限时间内用传统IT 技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。 大数据技术描述了新一代的技术和架构体系,通过高速采集、发现或分析,提取各种各样的大量数据的经济价值。大数据的特点可以总结为 4 个 V,即volume(体量浩大)、variety(模态繁多)、velocity(生成快速)和value(价值巨大但密度很低)。 大数据价值链可分为4个阶段:数据生成、数据采集、数据储存以及数据分析。数据分析是大数据价值链的最后也是最重要的阶段,是大数据价值的实现,是大数据应用的基础,其目的在于提取有用的值,提供论断建议或支浅谈大数据技术及应用全文共5页,当前为第2页。浅谈大数据技术及应用全文共5页,当前为第2页。持决策,通过对不同领域数据集的分析可能会产生不同级别的潜在价值。 浅谈大数据技术及应用全文共5页,当前为第2页。 浅谈大数据技术及应用全文共5页,当前为第2页。 3大数据的价值 大数据在投资者眼里是金光闪闪的两个字:资产。[3] 比如,Facebook上市时,评估机构评定的有效资产中大部分都是其社交网站上的数据。如果把大数据比作一种产业,那么这种产业实现盈利 关键,在于提高对数据的"加工能力",通过"加工"实现数据的"增值"。Target 超市以20多种怀孕期间孕妇可能会购买的商品为基础,将所有用户的购买记录作为数据来源,通过构建模型分析购买者的行为相关性,能准确的推断出孕妇的具体临盆时间,这样Target的销售部门就可以有针对的在每个怀孕顾客的不同阶段寄送相应的产品优惠卷。 Target的例子印证了维克托·迈尔-舍恩伯格提过的一个很有指导意义的观点:通过找出一个关联物并监控它,就可以预测未来。Target通过监测购买者购买商品的时间和品种来准确预测顾客的孕期,这就是对数据的二次利用的典型案例。如果,我们通过采集驾驶员手机的GPS数据,就可以分析出当前哪些道路正在堵车,并可以及时发布道路交通提醒;通过采集汽车的GPS位置数据,就可以分析城市的哪些区域停车较多,这也代表该区域有着较为活跃的人群,这些分析数据适合卖给广告投放商。 不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。从大数据的价值链条来分析,存在三种模式: 1手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。 2没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业。 3既有数据,又有大数据思维;比较典型的是Google,Amazon等。 未来在大数据领域最具有价值的是两种事物:1拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;2还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。 下面是大数据在当下的杰出表现:大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督;大数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能力;大数据帮助医疗机构建立患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使用效果,帮助艾滋病研究机构为患者提供定制的药物;大数据帮助电商公司向用户
浅谈大数据大数据分析 作者:吕跃超 来源:《电脑知识与技术》2018年第18期 摘要:认识当今的大数据环境、新型分析方法的基本原理和商机、所需的角色 ,以及垂直行业中具有代表性的大数据分析示例。明确大数据,高级分析的四大业务驱 动因素,区分用于业务智能与用于数据科学的方法,描述数据科学家在新型大数据生态 系统内的角色。 关键词:大数据大数据数据结构;数据存储库 中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)18-0001- 02 人类已经进入了信息时代,大数据将要融入人们的生活,那么什么是大数据? 数据何以成为"大"数据?"大数据"是指数据的规模、分布、多样性或时效性要求必须使 用新型技术体系结构和分析,以发掘新的业务价值源。 1 大数据的特征 大数据具有多项特征,其中3项较为突出,可作为界定特征: 1)巨大的数据量。 2)数据类型和结构的复杂性,非结构化数据量与日俱增(现存数据中的 80%- 90% 为非结构化数据)。 3)生成新数据的速度快。 此外,由于这类数据规模过大或结构层次过于复杂,因此仅采用传统的数据库 或方法无法高效地对其进行分析。 新兴的大数据商机和解决方案数不胜数。这里列举其中几个:Netflix 为您的下一次影碟租赁提供建议,通过动态监视桥体内嵌的传感器来检测实时应力和长 期腐蚀,零售商通过分析数字视频流来优化产品布局和显示布局及各个商店的促销空间 ,以上是大数据如何渗透到我们当今生活的一些真实示例。 这些种类的大数据问题需要采用新的工具或技术来进行存储、管理以及实现业 务优化。此类数据所需的新体系结构由新工具、流程和规程提供支持,从而帮助组织创 建、操作和管理这些极为庞大的数据集以及用于承载这些数据集的存储环境。 2 大数据数据结构 大数据表现为多种形式。从高度结构化的金融数据到文本文件,再到多媒体文 件和遗传作图,大数据几乎无所不包。巨大的数据量是大数据一贯的特征。鉴于数据本 身的复杂性,由此得出的必然结果是,首选的大数据处理方法是在并行计算环境中使用 大规模并行处理(MPP),从而实现同时进行并行接收以及数据加载和分析。大多数大数 据在本质上是非结构化或半结构化数据,因此要求采用不同的方法和工具进行处理和分 析。 让我们来详细了解一下最显著的特征大数据的结构,如图1所示。 图1显示了不同类型的数据结构,未来 80%-90% 的数据增长将来自非结构化数据类型(半结构化、准结构化和非结构化)。 尽管图1中显示了四种不同的单独数据类型,但事实上,它们有时可能会混杂在 一起。例如,您可能有一个用于存储某软件支持呼叫中心的呼叫日志的典型 RDBMS。这种情况下,您可能具有日期/时间戳、机器类型、问题类型、操作系统等典型 的结构化数据,这些数据可能由支持服务台人员通过下拉菜单 GUI 完成输入。 此外,您还可能具有非结构化或半结构化数据,例如取自问题的电子邮件票据 或技术问题和解决方案的实际电话呼叫描述的自由格式呼叫日志数据。最重要的信息往 往隐藏在这些数据中。另一种可能性是可能与结构化数据相关联的实际呼叫的语音记录 或音频文稿。直到最近,大多数分析师还无法对此呼叫日志历史记录 RDBMS 中最常见和高度结构化的数据进行分析,因为文本信息的挖掘需要耗费大量劳力,而且 难以实现自动运行。 3 大数据四种主要的数据结构类型 人们最熟悉的往往是分析结构化数据,而半结构化数据(在此处显示为 XML)、准结构化数据(显示为点击流字符串)和非结构化数据则带来不同的挑战,并且 需要使用不同的方法进行分析。 对每种数据类型,回答下列问题: 1)对这些数据执行哪些类型的分析? 2)谁将分析此类数据? 3)它们分别适合什么类型的数据存储库,或者,存储这类数据以及对其执行编 录可能有哪些要求? 4)谁将使用这些数据? 5)谁将管理并拥有这些数据? 4 分析师眼中的数据存储库 人们对电子表格往往爱恨交加。随着电子表格的引入,业务用户能够对采用行 和列结构的数据创建简单的逻辑,并针对业务问题创建自己的分析。用户无须进行大量 数据库管理员方面的培训即可创建电子表格,这意味着业务用户不必依赖 IT 团队即可快速建立电子表格。电子表格的两项主要好处是:它们可轻松进行共享,并且 终端用户对涉及的逻辑拥有控制权。但是,电子表格的激增导致组织不得不面临"多个事 实版本"的困境,也就是说,无法确定您所拥有的电子表格是否是包含了最新数据和逻辑 的正确版本。而且,一旦用户丢失了笔记本电脑或电子表格出现损坏,这些数据及其逻 辑就烟消云散了。许多组织至今仍在面临这一挑战(Excel 依然遍布在全球成百上千万台 PC 上),这也增加了集中管理数据的必要性。 随着数据需求的不断增长,Oracle、Teradata 和 Micr

250

社区成员

发帖
与我相关
我的任务
社区描述
其他产品/厂家
社区管理员
  • 其他
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧