可视化对数据挖掘的重要性之——洞察数据的可视化

一直都在流 2016-12-03 07:59:07
——什么是可视化
首先我们来了解下什么是可视化。传统意义上的解释,可视化是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。如果从字面上来理解,可视化就是把信息映射为可见图形的过程。它为人类与计算机这两个信息处理系统之间提供了一个接口。

——可视化在数据分析挖掘中的重要性
人对图像信息的解释效率比文字更高,我们人类是对图形图像极为敏感的生物。

可视化对数据分析至关重要。它是进行数据分析的第一个战场,可以揭示出数据内在的错综复杂的关系,在这一点上可视化的优势是其它方法无可比拟。“我们寻找意想不到的发现,我们挑战料想之中的观点。”
(Visualizing Data一书作者,Hobart 出版社)
— 威廉·克利夫兰(William S. Cleveland)

数据本身是不可见的,它们以比特和字节的形式存储在计算机硬盘驱动器的某个文件里。为了能让数据的意义得以体现,我们需要将其进行可视化。在这里,将采用广义的可视化概念,包括用纯文本展示的数据。例如,把一个数据集加载到某个电子表格软件里,这一过程就可以被认为是数据的可视化。看不见的数据瞬间就变成了屏幕上看得见的“图像”。因此,我们要探讨的问题不是新闻记者需不需要对数据进行可视化处理,而是在何种情况下用何种可视化方法,能够让数据分析达到最佳的效果。

换句话说,什么时候需要采用除表格以外的方式来进行数据的可视化呈现呢?答案很简单:几乎任何时候。仅仅使用表格肯定不足以让我们得到对数据集的整体把握。而且,光用表格也不能帮我们直接识别出数据的内在模式。一个最常见的例子就是,与地理位置相关的这一类型的数据,只有当数据在地图上被可视化之后,其具有的特点才能显现出来。

可视化为数据集提供了一个独特的视角,进行数据可视化的方法有很多种。
对于处理相对简单的维度的数据,表格的功能是非常强大的。表格可以以最为结构化和组织化的方式显示数据标签和数量,而且结合排序和筛选可以让其功能得到最大程度的发挥。此外,爱德华·塔夫特(Edward Tufte)建议在表格中添加一些小的数据图,例如在每一行加一个柱状图,或者画一个小的线形图(后来也被称为迷你图)。但是,表格无疑有其局限性。表格可以轻松帮你找到一维数据的异常值,比如排名前10的数据;但当要同时比较多维数据时(例如每个国家的人口随时间的变化),用表格就力不从心了。

一般来说,数据图可以让你把数据的不同维度通过几何形状表现出来。有的时候,你最后可能会发现,虽然做出来的图非常漂亮,但好像不能提供给你任何有趣的东西。不过,即使没什么价值,你都能够从可视化结果中发现一些东西。

如果把可视化分析看作一段在数据集中的旅程,那么对数据分析过程的记录就是你的旅行日记。它会告诉你到过哪些地方,看见了怎样的景色,以及你如何作出的下一步决定。你甚至可以在看到数据之前,就开始你的记录。

可视化对数据挖掘系统的影响不仅仅局限在数据可视化方面,挖掘模型可视化、挖掘过程可视化、可视化程度、质量和交互灵活性都影响到数据挖掘系统的使用和解释能力。
...全文
953 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
赵4老师 2016-12-05
  • 打赏
  • 举报
回复
显示大于32767行数据对应的折线图VC源代码 http://download.csdn.net/detail/zhao4zhong1/7610833
数据到底是什么?我们为什么需要大数据技术? 从本质上来说,大数据就是曾经被称为数据仓库的逻辑延伸。顾名思义,大数据就是一 个大型的数据仓库,一般有一个能支持业务决策的业务重点。但是,它和传统数据库不 同的是,大数据不用构建。 大数据使用特殊的数据结构来组织和访问巨大数量的数据,可能达到多个艾字节的范围 。一般情况下,这需要跨多个服务器和离散数据存储进行并行计算,而小企业往往难以 维持这种大数据的存储库。但是,大数据正逐渐成为云服务提供商能提供的一种服务, 从而把大数据应用推向更多的公司。 但是,还有一个"大"问题,就是我们为什么需要大数据?答案就是相关性的价值。如果 你能看到乍一看似乎没什么关系的数据设置之间的关系,你会获取很多重要信息。比如 你想知道你的公司是不是容易被黑客利用。那么你需要跨多个应用程序和数据中心检查 无数条交易。这时如果没有大数据技术和相关的分析技术,这几乎是不可能完成的。 最终,随着数据量的增长、业务的可用性和重要性的增加,大数据的定义可能会用来描 述大多数数据库应用。IT专业人士应该掌握大数据相关概念和术语,以免遇到困难。 大数据技术涵盖哪些内容 毫无疑问,世界上所有关注开发技术的人都意识到"大数据"对企业商务所蕴含的潜在价 值,其目的都在于解决在企业发展过程中各种业务数据增长所带来的痛苦。现实是,许 多问题阻碍了大数据技术的发展和实际应用。因为一种成功的技术,需要一些衡量的标 准。现在我们可以通过几个基本要素来衡量一下大数据技术,这就是——流处理、并行性 、摘要索引和可视化。 大数据技术涵盖哪些内容? 一、流处理   伴随着业务发展的步调,以及业务流程的复杂化,我们的注意力越来越集中在"数据 流"而非"数据集"上面。   决策者感兴趣的是紧扣其组织机构的命脉,并获取实时的结果。他们需要的是能够 处理随时发生的数据流的架构,当前的数据库技术并不适合数据流处理。   例如,计算一组数据的平均值,可以使用一个传统的脚本实现。但对于移动数据平 均值的计算,不论是到达、增长还是一个又一个的单元,有更高效的算法。如果你想构 建数据仓库,并执行任意的数据分析、统计,开源的产品R或者类似于SAS的商业产品就 可以实现。但是你想创建的是一个数据流统计集,对此逐步添加或移除数据块,进行移 动平均计算,而且数据库不存在或者尚不成熟。   数据流周边的生态系统有欠发达。换言之,如果你正在与一家供应商洽谈一个大数 据项目,那么你必须知道数据流处理对你的项目而言是否重要,并且供应商是否有能力 提供。 二、并行化   大数据的定义有许多种,以下这种相对有用。"小数据"的情形类似于桌面环境,磁 盘存储能力在1GB到10GB之间,"中数据"的数据量在100GB到1TB之间,"大数据"分布式的 存储在多台机器上,包含1TB到多个PB的数据。   如果你在分布式数据环境中工作,并且想在很短的时间内处理数据,这就需要分布 式处理。   并行处理在分布式数据中脱颖而出,Hadoop是一个分布式/并行处理领域广为人知的 例子。Hadoop包含一个大型分布式的文件系统,支持分布式/并行查询。 三、摘要索引   摘要索引是一个对数据创建预计算摘要,以加速查询运行的过程。摘要索引的问题 是,你必须为要执行的查询做好计划,因此它有所限制。   数据增长飞速,对摘要索引的要求远不会停止,不论是长期考虑还是短期,供应商 必须对摘要索引的制定有一个确定的策略。 四、数据可视化   可视化工具有两大类。   探索性可视化描述工具可以帮助决策者和分析师挖掘不同数据之间的联系,这是一 种可视化洞察力。类似的工具有Tableau、TIBCO和QlikView,这是一类。   叙事可视化工具被设计成以独特的方式探索数据。例如,如果你想以可视化的方式 在一个时间序列中按照地域查看一个企业的销售业绩,可视化格式会被预先创建。数据 会按照地域逐月展示,并根据预定义的公式排序。供应商Perceptive Pixel就属于这一类。 ----------------------- 大数据到底是什么全文共3页,当前为第1页。 大数据到底是什么全文共3页,当前为第2页。 大数据到底是什么全文共3页,当前为第3页。
招聘HR要分析哪些数据、如何分析? 在这个凡事讲求效率和价值的时代,Recruiter们越来越体会到数据分析的价值:只有超越简单的招聘工作汇报,透过日常招聘数据,提炼总结,及时发现问题,深入挖掘原因,才能真正让招聘工作摆脱例行公事似的糊涂泥沼,不断得到优化,实现更高的效率。 招聘数据分析对HR的价值 一、以过程化数据展现工作效果,赢得信任 HR们每天置身于繁琐、重复的招聘工作中,忙得焦头烂额,却不清楚投入了多少,取得了哪些成果?于是,一旦招聘效果不理想,面对用人部门的诘问时,HR往往理屈词穷,百口莫辩。由此可见,招聘过程数据化、招聘成果可视化是何等重要! 对于核心岗位的招聘更是如此。关键人才招聘难已成为普遍现象,招贤纳士不再只是HR的一己之任也成为共识,用人部门在招聘过程中的配合度极大影响着招聘结果,如果用过程化的数据记录用人部门的投入与贡献,就可以有理有据地检视HR与用人部门的待改善之处,从而明确责任、理清改善方向,赢得领导的信任与支持。 二、提炼总结日常数据,发现招聘规律 招聘数据分析全文共6页,当前为第1页。随着数据时代的来临,招聘分析已不仅仅停留在记录过程、撰写总结报告的层面。成功招到一个核心职位的员工需多长时间?哪个环节效率最低?各职位的需求趋势如何……针对这一系列问题,持续的日常数据追踪可以给出完美答案,而一旦发现这些规律,必将为优化未来工作带来巨大的价值。 招聘数据分析全文共6页,当前为第1页。 比如,虽然有经验的HR看到收取的简历量,就能判断此职位的招聘周期,看到面试通过率,就可判断面试官的用人标准。但感性的经验难以全面指导和干预招聘进程,当从数据中发现规律后,规律就可指导整个招聘过程。 招聘数据分析对HR的价值 招聘数据统计与分析主要包括四大类指标:关键绩效、招聘过程、渠道效果和招聘成本。各类指标都有相应的计算方法和展现方式,当然,不同企业的取值方式和展现形式也不尽相同。 招聘数据分析示例 招聘数据分析全文共6页,当前为第2页。一、招聘漏斗分析 招聘数据分析全文共6页,当前为第2页。 每个HR都希望快速为企业找到足够合适的人,但近年来,大范围的人力资源缺口逐步增大。广告发布后收不到简历、面试通知发出去等不来人、接受了offer最终未入职……再加上入职后在试用期内被淘汰的人,完成招聘任务谈何容易?到底是哪个环节出了问题?要让招聘环节的效果有所改善,就需要深入分析招聘过程,这就要用到招聘漏斗分析——通过实时跟踪过程数据,第一时间发现问题,以便采取相应举措。 招聘漏斗是指通过招聘流程各阶段的状态,逐渐淘汰不合适的应聘者,把合适的应聘者层层筛选出来的过程。 基于招聘漏斗分析,可以统计各个环节转化率,例如: 简历有效率=【电话面试】/【简历初筛】 初试到场率=【初试到场人数】/【初试人数】 招聘数据分析全文共6页,当前为第3页。复试通过率=【复试通过人数】/【复试人数】 招聘数据分析全文共6页,当前为第3页。 Offer接受率=【接受offer人数】/【发送offer人数】 转化率直观反映了招聘过程的效能和效率,让招聘过程关键环节的问题一目了然。例如,当招聘完成率不达标时,可追查offer接受率的情况。如果发现拒绝offer的人数较多、offer接受率明显低于标准时,就需进一步分析放弃offer的原因,以更好地洞察问题,支持决策。 Offer接受率数据分析的推导模型 二、招聘周期分析 招聘数据分析全文共6页,当前为第4页。核心职位的招聘周期过长,是很多HR深感头疼的问题。在现有招聘方式下,成功招到一个关键人才需要多长时间?从发布信息到人员入职,整个流程要多久?下一个阶段大概要招多少人?HR要明确了解这些信息,才能改善现状并提前准备。 招聘数据分析全文共6页,当前为第4页。 三、招聘渠道效果分析 常用的招聘渠道是否足够有效,不仅涉及到渠道的贡献率,也涉及到各渠道的投入产出比,这些数据也是HR亟需关注的。 科学的招聘数据分析,可以帮助企业在整个招聘流程中及时了解各职位的招聘进度。对于特别重要的职位,有经验的HR通常能够根据数据预判完成情况。这样一方面可全面把握招聘情况,另一方面能够尽早推进和干预招聘过程中的重点与难点环节,从而保证整个招聘活动的顺利进行。应用已有的数据支持决策,需要一套科学的理论基础: 招聘数据分析全文共6页,当前为第5页。 招聘数据分析全文共6页,当前为第5页。 HR要想更好地完成招聘工作,只盯着眼前的任务、被动接受指示是远远不够的。关注招聘过程中的数据,追踪并深入分析数据背后的规律,直至用数据指导行动决策,才能从招聘困局中解放出来,把问题控制在可预期的范围内。富有创造性的变化,就从关注招聘数据开始。 招聘数据分析全文共6页,当前为第6页。 招聘数据分析全文共6页,当前为第6页。 招聘数据分析
数据介绍 早在1958年,信息产业的蓝色巨人IBM公司就提出商业智能(Business Intelligence)的概念。商业智能通常被理解为将企业中现有的数据转化为知识,帮助 企业做出明智的业务经营决策的工具。学术界认为商业智能是帮助企业提高决策能力和 运营能力的概念、方法、过程以及软件的集合,其主要目标是将企业所掌握的信息转换 成竞争优势,提高企业决策能力、决策效率、决策准确性。为了将数据转化为知识,需 要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘(Data Mining)等技术。然而,随着越来越多的企业利用这些技术,数据的增长已经完全失去 控制,对业务运行也造成了影响。这就使得企业不仅要关注自身数据的流失,也要有意 识地开始积累数据,并且寻求新的方法来解决大量数据无法存储和无法计算的问题。由 此,在IT业界诞生了一个新名词——大数据(Big Data)。 由维基百科可知,"大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管 理和处理的数据集合。"该定义可以从两个角度来分析:一方面是数据容量的不断扩大, 数据集合的范围已经从兆字节(MB)到吉字节(GB)再到太字节(TB),甚至还有拍字 节(PB)、艾字节(EB)和泽字节(ZB)的计数单位出现。著名咨询公司IDC的研究报告 称,未来十年全球大数据将增加50倍。仅在2011年,就有1.8ZB(也就是1.8万亿GB)的 大数据创建产生。这相当于每位美国人每分钟写3条微博,而且还是不停地写2.6976万年 。在未来十年,管理数据仓库的服务器的数量将增加10倍以便迎合50倍的大数据增长。 另一方面,日益增长的集成式大数据已不再适宜于用当前管理数据库的工具来进行分析 处理。其难点包括:数据的抓取,存储,检索,共享,分析以及可视化等。维基百科还 认为这一趋势将持续发展,其原因在于越来越庞大的数据集合可以使信息分析员更准确 而地预测商业活动趋势,预防疾病的爆发,打击犯罪活动等。 从维基百科的定义中不难看出大数据所面临的问题都源自数据的增长与应对增长的技术 矛盾。IBM同样也指出:大数据来自方方面面,从搜集天气情况的感测器,接入社交媒体 网站的指令,数码图片,在线的视频资料,到网络购物的交易记录,手机的全球定位系 统信号等等。IBM总结大数据的特点为:多样化(Variety)、快速化(Velocity)和大 量化(Volume)。多样化是指大数据的内涵超越了结构化数据的概念,其实质包括各类 非结构化的数据:文本,音频,视频,点击流量,记录文件等。快速化是指通常具有时 效性,企业必须把握好对数据流的掌控应用,从而才能最大化地挖掘利用大数据所潜藏 的商业价值。大量化是指大数据的规模特点在于数量庞大,未来企业将不可避免地迎接 数据浪潮的冲击。 较早提出大数据概念还有以数据管理技术见长的EMC公司。其对大数据的工作定义为:" 数据集,或信息,它的规模、发布、位置在不同的孤岛上,或它的时间线要求客户部署 新的架构来捕捉、存储、整合、管理和分析这些信息以便实现企业价值。"根据IDC一份 EMC赞助的报告,消费者和企业所累积的数据量预计在未来十年内将增加44倍。虽然在这 里大数据变化的程度大小问题已不具备任何新颖的地方,但是大数据的变化也是形式上 的问题。数据不仅超越我们过去认知的日益密集的使用和更大的规模,而是与数据从模 拟到数字的转型有关,而且需要用新的途径来挖掘企业价值。通常情况下,大数据可以 分成三种类型:一是结构化数据,即行数据,存储在数据库里,可以用二维表结构来实现 的数据。甲骨文、微软都有这样的数据库管理,用以分析和研究。二是半结构化数据, 这种数据包括电子邮件、办公处理文档,以及许多存储在Web上的信息。半结构化数据是 基于内容的,可以被搜索。三是非结构化数据,包括图像、音频和视频等可以被感知的 信息。据统计,企业中20%的数据是结构化的,80%是非结构化或半结构化的。当今世界 结构化数据增长率大概是32%,而非结构化数据增长则是63%,至2012年,非结构化数据 占有比例将达到互联网整个数据量的75%以上。这些非结构化数据的产生往往伴随着社交 网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。企业用以分析的数据越 全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取 新的洞察力,并将其与已知业务的各个细节相融合。 可以说,大数据源自于更加密集和更大规模的海量存储,它涉及到数据类型从模拟到数 字的转换,以及利用新方法获取商业价值的需求。大数据的出现与当今信息的快速增长 和在信息中寻求财富的需求是分不开的。大数据是一个巨大市场,蕴涵了巨大的商机。 大数据不仅会在个体消费中起到重要作用,同样也会为国家经济和国民生活带来巨大的 利益。可以为世

107

社区成员

发帖
与我相关
我的任务
社区描述
本论坛将作为用户和华为FusionInsight大数据平台的开发交流平台,我们将持续建设本论坛,致力于让用户更好更快更全面的了解华为FusionInsight大数据平台。
华为华为云 技术论坛(原bbs)
社区管理员
  • FusionInsight HD社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧