数据的角色未变,但我们对数据的理解已加深

随着 COVID-19 疫情席卷全球,许多商业领袖们一直在努力弄清楚这对其行业意味着什么,以及他们应该如何应对冲击。几乎没有(如果有的话)商业组织能够幸免于新型冠状病毒带来的挑战。即使是蓬勃发展的科技行业的初创公司也感到恐慌——尽管许多公司已经积累了大量现金储备,并且在远程运营方面具有优势。然而,当交通运输和酒店等领域的科技公司为需求急剧下降做准备时,至少有一个行业领域仍然像以往一样繁忙:数据科学。

即使在史无前例的 disruption 之中,今天的企业领导者仍然依靠数据科学来指导他们制定策略,以帮助他们度过未来动荡的几周和几个月。与此同时,数据科学家们仍然像以往一样高效——考虑到他们大多数人都非常熟悉远程办公和远程协作的来龙去脉,这并不令人意外。事实上,许多人通过参与疫情应对工作,为自己增加了更多的工作。虽然数据分析和统计学一直是在应对公共卫生危机中的核心,但 COVID-19——作为智能手机时代的首次全球疫情——是人类首次利用实时数据科学和机器学习与之抗争的疫情。

为什么冠状病毒疫情将数据科学推向中心舞台

几十年来,数据科学领域不仅在复杂性方面不断发展,而且在影响力方面也在不断扩大。它日益影响着我们管理政府、企业、家庭和日常事务的方式。然而,对于非专业人士来说,数据在日常生活中的作用几乎是 invisible 的。当他们想到大数据时,他们想到的是无尽的电子表格和难以理解的数学函数,而不是他们手腕上的智能手表或他们收件箱中的自动提示。COVID-19 疫情已经彻底改变了这一点。

从第一天起,数据科学就一直处于 COVID-19 应对的最前沿。在世界各地,医护人员、科学家、流行病学家和政策制定者都在聚合和共享 incident 数据,使用近乎实时的 COVID-19 跟踪器,以便就抗击病毒做出更明智的决策。抽象的图论概念突然变得非常 concrete,以全球社交疏离措施的形式出现。与此同时,像 R0 和“拉平曲线”这样复杂的统计学概念已经入侵了大众的想象,催生了从 memesmusical parodies 的一切。

数据科学如何帮助抗击疫情

在人类历史上,我们第一次共同利用数据和数学的力量与共同的敌人作斗争。最近几周,我们 data science 公司 Anaconda 的团队尤其感到鼓舞,看到世界各地的科学家都在使用我们挚爱的 Python 编程语言来参与进来,帮助公共卫生专家和政府官员确定如何最好地应对新型冠状病毒。这些团队正在利用开源协作和庞大的公共数据集来帮助更清晰地描绘病毒的传播方式,而这些见解正在对今天与病毒作斗争的社区产生切实的影响。

以开源项目 Nextstrain 为例。Nextstrain 最有价值的举措之一是一个名为 Auspice 的交互式 Python Web 应用程序,它旨在可视化 COVID-19 如何变异。像大多数病毒一样,COVID-19 随着时间的推移而变异,因为在病毒的复制过程中会产生小的错误。借助数据科学,基因组流行病学家可以跟踪这些突变,以了解病毒是如何传播的。Nextstrain 团队的 Auspice 应用程序使用来自全球共享所有流感数据倡议 (GISAID)(世卫组织创建的数据库)的数据,生成详细的系统发育树,这是一种科学家用来 illustration 病毒随时间变异的方式的可视化工具。

这项工作可能具有很高的学术性,但它已经对现实世界产生了直接影响。今年 2 月,华盛顿州的公共卫生官员利用 Nextstrain 的数据来指导对冠状病毒做出的一些重要政策响应,当时冠状病毒才刚刚开始出现在美国。Nextstrain 团队分析了在华盛顿州收集的病毒样本(彼此间隔六周),发现这两个样本都包含一种在中国样本中很少观察到的突变。这提供了强有力的证据,表明 COVID-19 的社区传播正在该州发生,促使州长和西雅图市长宣布进入紧急状态——这一决定可能挽救了数百人的生命。

数据科学进入主流

与此同时,在光谱的另一端,普通公民正在迅速转变为业余数据科学家,因为他们正在应对现在主导我们日常生活的复杂科学。毫无疑问,冠状病毒对我们即使在最随意的对话中使用的语言也产生了深刻而普遍的影响。为了证明这种影响,只需看看 Merriam-Webster 词典:今年,Merriam-Webster 组织进行了 其 200 年历史上最快的紧急更新,使用了术语“COVID-19”,该术语由世卫组织于 2 月 11 日宣布,并在几周后的 3 月 16 日添加到词典中。

从那时起,人们对围绕冠状病毒的技术语言的兴趣激增,互联网上充斥着由数十家新闻媒体和各种科学组织制作的冠状病毒词汇表。许多已经变得最流行的术语都植根于数据科学和统计分析。就在几个月前,普通人可能对 R0 的正确发音感到困惑,或者厚颜无耻地说“are too!”。现在,由于 深入的新闻报道 和社交媒体上的广泛讨论,这个曾经 obscure 的变量正变得越来越臭名昭著。

在其他地方,从公共卫生和数学领域提取的看似 dry、mundane 的表达方式已成为著名作家冗长、沉思散文的主题。在《纽约客》中,作家凯伦·罗素写了一段优美的段落,讲述了她在“拉平曲线”等短语中找到的安慰,这是一个植根于图论的简单概念,她说这帮助她将“恐惧转化为行动”。在《洛杉矶时报》中,记者马克·Z·巴拉巴克探讨了“社交疏离”等词语和短语不仅让我们了解情况,而且还让我们保持安全的方式。

冠状病毒的语言和数学显然也让我们保持参与,如果最近的头条新闻有任何迹象的话。在 COVID-19 时代,数学和数据科学生成的分析已成为“Breaking News”警报的主题。我们阅读了关于 我们真的应该担心的冠状病毒数学 的文章,并观看了 专家“计算”病毒传播速度 的视频。对数据解释的争论可能会 balloon 成 全面的政治丑闻,我们发现自己正在搜索最新的数据更新,希望能 找到保持冷静的理由

后冠状病毒时代的数据科学

一旦冠状病毒过去,数据科学、数学和公共卫生主题日益突出和受到的关注是否会持续下去?不太可能——或者至少,不会以同样的 intensity 持续下去。然而,数据科学日益提高的地位可能会产生一些长期影响。正如许多人近几十年来观察到的那样,美国人以 他们对专家和学者的不信任 而闻名。幸运的是,这种趋势一直在 多年下降,最近的 Pew Research Center 民意调查表明,在疫情期间 公众对机构的信任度普遍提高。希望随着越来越多的美国人更多地了解科学见解(这些见解是我们抗击冠状病毒的最大工具)以及努力工作的科学家们正在使用这些见解,这种情况只会增加。

如果您想了解更多关于此主题的信息,我将在 AnacondaCON Day 2 Keynote 期间与 Datanami 的 Alex Woodie 坐下来讨论数据在新常态中的作用。您可以在 anacondacon.io 注册免费的虚拟会议。

与专家交流

与我们的专家之一交流,为您的 AI 之旅寻找解决方案。

与专家交流