可视化对数据挖掘的重要性之——洞察数据的可视化
一直都在流 2016-12-03 07:59:07 ——什么是可视化
首先我们来了解下什么是可视化。传统意义上的解释,可视化是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。如果从字面上来理解,可视化就是把信息映射为可见图形的过程。它为人类与计算机这两个信息处理系统之间提供了一个接口。
——可视化在数据分析挖掘中的重要性
人对图像信息的解释效率比文字更高,我们人类是对图形图像极为敏感的生物。
可视化对数据分析至关重要。它是进行数据分析的第一个战场,可以揭示出数据内在的错综复杂的关系,在这一点上可视化的优势是其它方法无可比拟。“我们寻找意想不到的发现,我们挑战料想之中的观点。”
(Visualizing Data一书作者,Hobart 出版社)
— 威廉·克利夫兰(William S. Cleveland)
数据本身是不可见的,它们以比特和字节的形式存储在计算机硬盘驱动器的某个文件里。为了能让数据的意义得以体现,我们需要将其进行可视化。在这里,将采用广义的可视化概念,包括用纯文本展示的数据。例如,把一个数据集加载到某个电子表格软件里,这一过程就可以被认为是数据的可视化。看不见的数据瞬间就变成了屏幕上看得见的“图像”。因此,我们要探讨的问题不是新闻记者需不需要对数据进行可视化处理,而是在何种情况下用何种可视化方法,能够让数据分析达到最佳的效果。
换句话说,什么时候需要采用除表格以外的方式来进行数据的可视化呈现呢?答案很简单:几乎任何时候。仅仅使用表格肯定不足以让我们得到对数据集的整体把握。而且,光用表格也不能帮我们直接识别出数据的内在模式。一个最常见的例子就是,与地理位置相关的这一类型的数据,只有当数据在地图上被可视化之后,其具有的特点才能显现出来。
可视化为数据集提供了一个独特的视角,进行数据可视化的方法有很多种。
对于处理相对简单的维度的数据,表格的功能是非常强大的。表格可以以最为结构化和组织化的方式显示数据标签和数量,而且结合排序和筛选可以让其功能得到最大程度的发挥。此外,爱德华·塔夫特(Edward Tufte)建议在表格中添加一些小的数据图,例如在每一行加一个柱状图,或者画一个小的线形图(后来也被称为迷你图)。但是,表格无疑有其局限性。表格可以轻松帮你找到一维数据的异常值,比如排名前10的数据;但当要同时比较多维数据时(例如每个国家的人口随时间的变化),用表格就力不从心了。
一般来说,数据图可以让你把数据的不同维度通过几何形状表现出来。有的时候,你最后可能会发现,虽然做出来的图非常漂亮,但好像不能提供给你任何有趣的东西。不过,即使没什么价值,你都能够从可视化结果中发现一些东西。
如果把可视化分析看作一段在数据集中的旅程,那么对数据分析过程的记录就是你的旅行日记。它会告诉你到过哪些地方,看见了怎样的景色,以及你如何作出的下一步决定。你甚至可以在看到数据之前,就开始你的记录。
可视化对数据挖掘系统的影响不仅仅局限在数据可视化方面,挖掘模型可视化、挖掘过程可视化、可视化程度、质量和交互灵活性都影响到数据挖掘系统的使用和解释能力。