数据可视化是数据科学家工作中不可或缺的一部分——一张图片胜过千言万语!尽管我们生活在一个大数据和数据驱动决策的时代,但事实是,如果没有数据可视化,我们就会迷失在电子表格中无尽的数字行中。毕竟,200 年前,世界上只有不到 20% 的人口识字——但图像在数万年来一直是强大的交流工具。
即使在当今高度识字的时代,大多数人仍然难以理解满页数字表格之间的关系。今年的数据科学现状调查显示,只有 52% 的受访者表示他们所在组织的决策者大多具备数据素养。在这种背景下,数据可视化在传达重要概念和趋势方面可以发挥关键作用就不足为奇了。即使数据可视化是一个(相对)较新的发展,历史已经证明了它对我们生活的重大影响潜力。也许这就是为什么今天的数据科学家表示他们在可视化上花费了 15% 的时间。
同时,数据可视化并不是一种一劳永逸、包治百病的解决方案,可以用来传达数据科学工作的结果。即使对于经验丰富的从业者来说,数据可视化也可能很难做好。而且,鉴于图表或图形可以牢牢地印在我们的脑海中,如果它们没有准确或有效地反映底层数据,就会产生负面后果。
为了更好地理解数据可视化可能出错的地方,以及如何避免这些陷阱,将数据可视化分解成两种主要类型是有帮助的。第一种是探索性可视化:这是数据科学家在得出任何结论或进行完整分析之前,为了更好地理解他们的数据而使用可视化工具。第二种是叙事性可视化:这是数据科学家用来向更广泛的受众展示或传达他们的发现。每种类型都有其自身潜在的挑战。
探索性数据可视化
随着大数据的出现,探索性数据可视化成为了数据科学过程中的一个关键部分。当处理数十万、数百万甚至数十亿个数据点时,个人仅仅通过观察单个值或计算简单统计数据来发现数据集中的模式和分布变得不可能。因此,从业者转向数据可视化,以便更好地处理他们的数据并探索进一步的分析途径。不幸的是,传统的可视化方法需要仔细的手动调整,以避免过度绘图、欠饱和和过度饱和等问题,而当您唯一理解数据的方法是通过可视化本身时,手动调整很难安全地进行!如果您将传统的可视化技术用于对大数据的探索性分析,那么对于小数据来说仅仅是令人讨厌的绘图问题,对于大数据来说可能会导致完全错误的结论。
为了避免这些问题,重要的是要意识到在进行探索性数据可视化时使用的任何工具的局限性,并批判性地思考信息显示方式如何影响您对信息的评估。几年前我们创建Datashader的原因之一就是为了帮助解决这一挑战。Datashader 是一个开源库,可以自动创建任何大小数据集的准确表示,无需手动调整透明度或点大小等参数。我们使用 Datashader 的目标是让从业者探索他们的大型数据集,就像它们真正存在的那样,包括所有缺陷(嗯,异常值!),而无需在开始时就知道他们要找什么。
无论您使用 Datashader 还是其他工具,避免探索性数据可视化问题关键在于确保在潜意识地试图使数据与预先设定的假设相匹配时,您不会将数据中的纹理和细微差别挤压出去。
叙事性数据可视化
这些类型的数据可视化是非从业者最熟悉的,因为它们包括我们经常看到的图表和图形,用来解释基于数据的趋势和模式。这些数据可视化是传达信息的强大工具,因此做好它们至关重要。
一个优秀的叙事性数据可视化能够准确地传达作者对数据的理解,同时也能传达任何数据中的不确定性或局限性。它不是数据讨论的唯一输出或最终产品,而是一个更大对话的一部分。这种数据可视化应该表明所执行的分析、所做的假设、所考虑的数据以及未包含的数据。在构建叙事性数据可视化时,重要的是要考虑的不只是您自己的经验,还要考虑最终用户。例如,他们可能患有色盲,无法区分红色和绿色。此外,还要考虑叙事性数据可视化的美观性;例如,在美国,许多观众会将绿色与“好”联系起来。
考虑到如今有无数种方法可以使图表在视觉上更具吸引力,例如使用花哨的图形或动画,因此有意地使用叙事性数据可视化尤其重要。在创建这些可视化时,不要跳过高质量的数据科学流程——如今,在数据可视化方面,有无数种方法可以给猪涂口红,但如果核心数据或假设存在缺陷,那么图表看起来再好也没用。不应该为了清晰的视觉故事而牺牲准确性。
数据可视化作为道德的一部分
作为数据科学家,我们有能力帮助塑造商业决策、公共政策、医疗研究以及日常生活中的其他重要领域。我们有责任负责任和道德地实践我们的技能,这包括数据可视化流程。在能力范围内,我们需要确保我们的可视化能够明确阐明可能融入我们结果中的任何假设或偏差,并且它们能够帮助查看者提出更多问题,而不是作为任何讨论的“句号”。无论是探索性目的还是叙事性目的,数据可视化从根本上都会影响对数据和主题的看法,因此,如果值得制作图表,就值得花时间做好。