可视化对数据挖掘的重要性之——洞察数据的可视化

一直都在流 2016-12-03 07:59:07

——什么是可视化
首先我们来了解下什么是可视化。传统意义上的解释，可视化是利用计算机图形学和图像处理技术，将数据转换成图形或图像在屏幕上显示出来，并进行交互处理的理论、方法和技术。如果从字面上来理解，可视化就是把信息映射为可见图形的过程。它为人类与计算机这两个信息处理系统之间提供了一个接口。

——可视化在数据分析挖掘中的重要性
人对图像信息的解释效率比文字更高，我们人类是对图形图像极为敏感的生物。

可视化对数据分析至关重要。它是进行数据分析的第一个战场，可以揭示出数据内在的错综复杂的关系，在这一点上可视化的优势是其它方法无可比拟。“我们寻找意想不到的发现，我们挑战料想之中的观点。”
(Visualizing Data一书作者，Hobart 出版社)
— 威廉·克利夫兰(William S. Cleveland)

数据本身是不可见的，它们以比特和字节的形式存储在计算机硬盘驱动器的某个文件里。为了能让数据的意义得以体现，我们需要将其进行可视化。在这里，将采用广义的可视化概念，包括用纯文本展示的数据。例如，把一个数据集加载到某个电子表格软件里，这一过程就可以被认为是数据的可视化。看不见的数据瞬间就变成了屏幕上看得见的“图像”。因此，我们要探讨的问题不是新闻记者需不需要对数据进行可视化处理，而是在何种情况下用何种可视化方法，能够让数据分析达到最佳的效果。

换句话说，什么时候需要采用除表格以外的方式来进行数据的可视化呈现呢？答案很简单：几乎任何时候。仅仅使用表格肯定不足以让我们得到对数据集的整体把握。而且，光用表格也不能帮我们直接识别出数据的内在模式。一个最常见的例子就是，与地理位置相关的这一类型的数据，只有当数据在地图上被可视化之后，其具有的特点才能显现出来。

可视化为数据集提供了一个独特的视角，进行数据可视化的方法有很多种。
对于处理相对简单的维度的数据，表格的功能是非常强大的。表格可以以最为结构化和组织化的方式显示数据标签和数量，而且结合排序和筛选可以让其功能得到最大程度的发挥。此外，爱德华·塔夫特(Edward Tufte)建议在表格中添加一些小的数据图，例如在每一行加一个柱状图，或者画一个小的线形图（后来也被称为迷你图）。但是，表格无疑有其局限性。表格可以轻松帮你找到一维数据的异常值，比如排名前10的数据；但当要同时比较多维数据时（例如每个国家的人口随时间的变化），用表格就力不从心了。

一般来说，数据图可以让你把数据的不同维度通过几何形状表现出来。有的时候，你最后可能会发现，虽然做出来的图非常漂亮，但好像不能提供给你任何有趣的东西。不过，即使没什么价值，你都能够从可视化结果中发现一些东西。

如果把可视化分析看作一段在数据集中的旅程，那么对数据分析过程的记录就是你的旅行日记。它会告诉你到过哪些地方，看见了怎样的景色，以及你如何作出的下一步决定。你甚至可以在看到数据之前，就开始你的记录。

可视化对数据挖掘系统的影响不仅仅局限在数据可视化方面，挖掘模型可视化、挖掘过程可视化、可视化程度、质量和交互灵活性都影响到数据挖掘系统的使用和解释能力。

...全文