数据可视化为何是最难但也是最重要的任务之一

数据可视化是数据科学家工作中不可或缺的一部分——一张图片胜过千言万语!即使我们生活在一个大数据和数据驱动决策的时代,事实是,如果没有数据可视化,我们就只能在无尽的电子表格中滚动浏览数字。毕竟,仅 200 年前,世界上不到 20% 的人口是识字的——而图像却已经成为数万年来强大的交流工具。

即使在当今高度识字的世界,大多数人仍然难以理解表格中数字之间的关系。在今年的 数据科学现状调查 中,只有 52% 的受访者表示其组织的决策者大多是数据识字的。在这种背景下,数据可视化在传达重要概念和趋势方面发挥关键作用就说得通了。即使数据可视化是一种(相对)较新的发展,历史已经表明它们对我们生活的巨大影响力。也许这就是为什么如今数据科学家表示他们 将 15% 的时间用于可视化

同时,数据可视化并不是传达数据科学工作结果的万能解决方案。即使对于经验丰富的从业人员来说,要做好数据可视化也很困难。而且考虑到图表或图形能够有效地留存在我们的大脑中,如果它们 无法准确或有效地反映基础数据,则可能会产生负面影响。

为了更好地理解数据可视化可能出现的问题以及如何避免这些陷阱,将数据可视化分解为两种主要类型是有帮助的。第一种是探索性可视化:这是数据科学家在得出任何结论或进行全面分析之前使用可视化工具来更好地理解其数据。第二种是叙述性可视化:这是数据科学家用来向更广泛的受众展示或传达其发现的内容。每种类型都有其潜在的挑战。

探索性数据可视化

随着大数据的出现,探索性数据可视化成为了数据科学过程中的关键部分。当处理数十万、数百万甚至数十亿个数据点时,个人无法仅通过观察单个值或计算简单统计数据来发现数据集中的模式和分布。因此,从业人员转向数据可视化来处理数据并探索更深入的分析途径。不幸的是,传统的可视化方法需要仔细的手动调整才能避免诸如 过度绘制、饱和不足和饱和过度 之类的问题,而当您唯一了解数据的途径是通过可视化本身时,手动调整就很难安全地完成!如果您将传统可视化技术用于大型数据的探索性分析,那么对于小型数据来说只是恼人的绘图问题,对于大型数据来说,可能会导致完全错误的结论。

为了避免这些问题,重要的是要注意使用探索性数据可视化时任何工具的局限性,并批判性地思考信息的显示方式如何影响您对其的评估。我们几年前创建 Datashader 的原因之一是为了帮助解决这一挑战。Datashader 是一个开源库,它可以自动创建任何大小数据集的准确表示,而无需手动调整透明度或点大小等参数。我们使用 Datashader 的目标是让从业人员能够探索其大型数据集的真实情况,包括所有瑕疵(也就是异常值!)以及一切,而无需事先知道他们要寻找什么。

无论您使用 Datashader 还是其他工具,避免探索性数据可视化问题的关键是确保在潜意识地试图使数据与预先设定的假设相匹配时,您不会挤压数据的纹理和细微差别。

在这个 Datashader 示例 中,无需任何参数调整即可生成,显示了纽约市的出租车行程,每个像素的亮度反映了该像素中发生的行程数量。中城区域的模糊部分揭示了该区域 GPS 准确性较差——这可能是由于高楼造成的。如果没有进行探索性数据可视化,这种洞察力可能并不明显。

叙述性数据可视化

这些类型的数据可视化是普通大众最熟悉的,因为它们包括我们经常用来解释数据驱动趋势和模式的图表和图形。这类数据可视化是传达信息的强大工具,因此,做好它们至关重要。

优秀的叙述性数据可视化能够准确地传达作者对数据的理解,同时还传达任何数据的不确定性或局限性。它不是数据讨论的唯一输出或最终产品,而是更大对话的一部分。这种类型的数据可视化应该指明所进行的分析、所做的假设、所考虑的数据以及未包含的数据。在构建叙述性数据可视化时,重要的是不仅要考虑自己的经验,还要考虑最终用户。例如,他们可能是色盲,无法区分红色和绿色。此外,还要考虑叙述性数据可视化的美学;例如,在美国,许多观众会将绿色与“好”联系在一起。

考虑到如今制作图形的无数种方法,例如使用花哨的图形或动画,来使它们看起来具有视觉吸引力,因此在叙述性数据可视化中要刻意为之尤为重要。在追求创建这些可视化的过程中,不要跳过高质量的数据科学流程——如今,在数据可视化方面,有无限种方法可以“为猪涂口红”,但如果核心数据或假设存在缺陷,那么图表看起来再好也没用。不应为了清晰的视觉故事而牺牲准确性。

数据可视化作为伦理的组成部分

作为数据科学家,我们有能力帮助塑造商业决策、公共政策、医学研究以及日常生活的其他重要领域。我们有责任负责任和道德地实践我们的工作,其中包括数据可视化过程。我们尽力确保我们的可视化能够清楚地说明结果中可能存在的任何假设或偏差,并帮助观众提出更多问题,而不是作为任何讨论的“句号”。无论是探索性还是叙述性的目的,数据可视化都将从根本上影响人们对数据和主题的看法,因此,如果值得创建图表,那么就值得花时间把它做好。

与专家交谈

与我们的专家交谈,以找到适合您 AI 旅程的解决方案。

与专家交谈