世上本无数据 – 唯有固化模型

我认为在当今数据驱动的世界中,一个至关重要但又被严重低估的事实是:根本不存在所谓的“数据”。

对于一家数据科学公司的领导者来说,这似乎是一个奇怪的说法,请允许我解释一下。我们认为的“原始”数据实际上是已经被模型影响过的信息——这些模型决定了数据的收集方式、收集哪些数据,以及收集过程本身如何影响数据。纯粹或原始数据的概念是一种谬论,就像将数据视为某种神圣的纯净资源(如黄金或石油)一样;相反,我们需要认识到数据实际上是一种流动且依赖于约束的表示形式。

例如,想想照片。人们很容易将原始、未经编辑的图像想象成一个纯粹的数据点,或绝对真理的精确表示。但请考虑一下生成照片过程中的所有要素:拜耳矩阵、伽玛校正、锐化、坏点和传感器灰尘滤镜等等。更不用说,还有曝光时间的影响,这本身就是一种时间采样行为。即使是一张原始照片,也是约束的产物,这些约束不可避免地塑造了它包含的信息,这意味着如果不检查这些约束如何影响它,我们就不能将其视为真理的纯粹形式。

数据库中的每一条数据和每一行都是收集系统的结果。过滤、收集、转换——在“原始”输入变成可用数据之前,会发生很多事情。当我们查看数据集时,我们需要了解从一开始有多少模型被固化在其中,以便从中获得最大价值。

当然,这种思路很快就会让人感到困惑或沮丧;如果根本不存在纯粹的数据,我们如何从我们拥有的数据中进行操作并产生有用的见解?我们如何避免在这片广阔的海洋中原地踏步,而是朝着我们的目标取得实际进展?以及,如果可以的话,我们对数据真实本质的理解应该如何影响我们处理数据的方式?

有了正确的态度,对数据现实的认知实际上可以帮助您成为更强大、更有洞察力的数据用户。通过了解您的数据可能存在的局限性或偏差(源于数据的收集方式或来源),您可以更有意地根据数据提供的见解采取行动。例如,假设您在一家手机服务提供商工作,并希望调查手机用户,以了解如何改进您的产品。一种简单的选择调查对象的方法是从账单中收集姓名,确定您想要的参与者人数,然后从列表中随机向这么多姓名发送调查问卷。但是,对于家庭计划用户,很可能只有一个姓名被列为账单负责人,并且该人很可能是成年人,这又如何呢?您可能会错过来自青少年或年轻成年用户的见解,而他们可能占您的用户群的很大一部分,因为数据收集方法受到了限制。通过思考影响您所谓的“原始”数据的“固化模型”,您可以从中做出更审慎和明智的决策。

考虑到数据的局限性以及其中固有的假设,这不仅对于做出更明智的选择很重要;它也是成为有道德责任感的数据从业者的关键要素。数据的收集方式可能会引入有害的偏见,这意味着由该数据驱动的 AI 模型或业务决策也可能存在偏见。在收集数据集时,重要的是要问诸如“我们是如何选择收集哪些数据的?”和“哪些数据点可能因此被排除在外?”之类的问题,以便考虑并减轻任何可能的有害偏见。许多这些偏见是无意中固化到数据中的,因此即使您认为数据集是公正和公平的,也应该通过这个角度来检查每个数据集。

您可以在数据收集过程中调整许多不同的参数,以尝试消除偏差或抵消局限性,例如收集更精细的数据集,或者采取相反的方法,收集更广泛的信息。了解影响“原始”数据的无数因素,您如何确定富有成效的前进道路?如果您想从数据中获得尽可能大的价值,我建议通过您业务的 OODA(观察、调整、决策、行动)循环来查看数据,并使用它来设置适当的数据收集参数。

例如,以绘制社区地图为例:街道、人行道、空地、房屋等的位置。如果我的目标是为大型草地设置喷水灭火系统,那么我需要的细节程度与我需要将包裹送到特定房屋所需的细节程度不同,这仍然不同于我需要能够驾驶无人机穿过该房屋的敞开窗户所需的细节程度。作为一家企业,您可以投入无限的资源来收集具有不同纹理和不同粒度级别的数据。重要的是在开始时确定您需要哪种类型的数据,然后确保您的收集过程能够产生该信息——同时,要注意可能因收集过程而固化到数据中的潜在偏差或盲点。

在数据科学和机器学习领域,我们认为数据和模型更具流动性和复杂性,而不是某种静态的人工制品。企业和其他组织越能接受这种思维方式,他们从数据驱动中获得的好处就越多。


要深入了解此主题,请查看 此剧集 来自 a16z Podcast,其中包含 Peter 和 Martin Casado 之间的对话。

与专家交谈

与我们的专家之一交谈,为您的 AI 之旅寻找解决方案。

与专家交谈