数据不存在,只有冻结模型

我认为有一个非常重要的真相,但在当今数据驱动的世界中却很少有人认识到:根本不存在“数据”。

对于一家数据科学公司领导人来说,这似乎是一个奇怪的说法,所以请允许我解释。我们认为是“原始”数据的实际上是已经被模型影响过后的信息——这些模型决定了数据的收集方式、收集哪些数据以及收集过程本身对数据的影響方式。纯数据或原始数据是一个谬误,将数据视为某种神圣的纯资源(如黄金或石油)的做法也是如此;相反,我们需要认识到数据是流动的,并且依赖于约束条件的表示。

例如,想想一张照片。人们很容易想象未经编辑的原始图像是一个纯数据点,或者对绝对真理的精确表示。但是,请考虑导致该照片的所有过程元素:有拜耳矩阵、伽玛校正、锐化、坏点和传感器灰尘过滤器等等。更不用说曝光时间的影响了,曝光时间本身就是一种时间采样行为。即使是原始照片也是对约束的产物,这些约束不可避免地影响了它所包含的信息,这意味着我们不能将它视为纯粹的真理形式,而无需检查这些约束是如何影响它的。

每个数据片段和数据库中的每一行都是收集系统的结果。过滤、收集、转换——在“原始”输入变成可用数据之前,会发生很多事情。当我们查看数据集时,我们需要了解有多少模型从一开始就被“冻结”到其中,以便从数据中获得最大的价值。

当然,这种思维方式很快就会让人感到困惑或沮丧;如果不存在纯粹的数据,我们如何从我们拥有的数据中操作并生成有用的见解?我们如何避免在浩瀚的海洋中仅仅随波逐流,而是朝着我们的目标取得实际进展?如果可能的话,这种关于数据真实本质的理解应该如何影响我们处理数据的方式?

以正确的态度,对数据现实的了解实际上可以帮助你成为更有力、更有洞察力的数据使用者。通过了解你的数据的潜在局限性或偏差(源自它的收集方式或它的来源),你可以更有意识地根据它提供的洞察力采取行动。例如,假设你为一家手机服务提供商工作,并且想要调查手机用户以了解如何改进你的产品。选择调查受访者的一个简单方法可能是从账单中收集姓名,确定你想要的人数,然后从名单中随机发送调查问卷给这么多人。但是,对于家庭套餐的用户来说,只有一个人的名字会被列为负责付费的人,而这个人很可能是一个成年人。你可能会错过来自青少年或年轻成年用户的见解,而这些用户可能构成了你用户群体的很大一部分,因为数据收集方法受到限制。通过仔细思考对你的“原始”数据产生影响的“冻结模型”,你就可以从数据中做出更谨慎、更明智的决策。

考虑数据的局限性和嵌入其中的假设不仅对做出更明智的选择很重要,也是负责任的数据从业人员的关键要素。数据收集的方式会引入有害的偏差,这意味着由这些数据驱动的 AI 模型或商业决策也可能存在偏差。在收集数据集时,一定要提出“我们如何选择要收集哪些数据?”和“由于什么原因哪些数据点可能被排除在外?”等问题,以便考虑到——并减轻——任何可能的有害偏差。许多这些偏差是不经意间被“冻结”到数据中的,因此应该通过这种视角来检查每个数据集,即使你认为它是公正和公平的。

你可以在数据收集过程中调整许多不同的参数,以尝试消除偏差或抵消局限性,例如收集更详细的数据集,或者采取相反的做法,收集更广泛的信息。了解影响“原始”数据的无数因素,你如何找到一条富有成效的前进道路?如果你想从数据中获得最大的价值,我建议你通过你业务的 OODA 循环(观察、定位、决策、行动)来查看数据,并利用它来为数据收集设定适当的参数。

例如,以绘制社区地图的任务为例:街道、人行道、空地、房屋等的地理位置。如果我的目标是为大面积的草地区域安装洒水系统,我需要的细节水平与将包裹送到特定房屋需要的细节水平不同,而这又与能够让无人机从该房屋的开放窗户飞过的细节水平不同。作为一个企业,你可以投入无限的资源来收集不同纹理和不同粒度级别的数据。在开始之前,确定你需要什么类型的数据很重要,然后确保你的收集过程正在产生这些信息——同时,注意由于收集过程而可能被嵌入到数据中的潜在偏差或盲点。

在数据科学和机器学习领域,我们认为数据和模型更加流动和复杂,而不是某种静态的产物。企业和其他组织越能接受这种心态,他们从数据驱动中获益就越多。


要深入了解这个主题,请查看The a16z Podcast 的这一集,其中包含 Peter 和 Martin Casado 的对话。

与专家交谈

与我们的专家交谈,为你的 AI 之旅寻找解决方案。

与专家交谈