随着 COVID-19 大流行席卷全球,许多企业领导者都在努力弄清楚这对他们的行业意味着什么,以及他们应该如何做好应对冲击的准备。几乎没有哪个企业组织不受新型冠状病毒带来的挑战的影响。即使是在繁荣的科技领域,许多初创企业也感到不安——尽管许多企业已经积累了大量的现金储备,并且能够很好地进行远程运营。然而,虽然在交通和酒店等领域的科技公司为需求大幅下降做准备,但至少该行业的一个部门仍然像往常一样忙碌:数据科学。
即使在前所未有的混乱之中,当今的企业领导者仍然依靠数据科学来指导他们制定应对未来动荡的几周和几个月的策略。与此同时,数据科学家们本身也像往常一样富有成效——这并不奇怪,因为大多数人已经习惯了远程办公和远程协作的来龙去脉。事实上,许多数据科学家正在通过参与疫情应对工作来增加他们的工作量。虽然数据分析和统计一直是应对公共卫生危机的核心,但 COVID-19——作为智能手机时代的第一场全球性大流行——是人类第一次利用实时数据科学和机器学习来对抗疫情。
为什么冠状病毒大流行让数据科学成为中心舞台
几十年来,数据科学领域不仅在复杂程度上,而且在影响力上也在不断增长。它越来越深刻地影响着我们管理政府、企业、家庭和日常生活的方式。然而,对于非专业人士来说,数据在日常生活中的作用几乎是不可见的。当他们想到大数据时,他们想到的是无穷无尽的电子表格和难以理解的数学函数,而不是他们手腕上的智能手表或收件箱中的自动提示。COVID-19 大流行极大地改变了这种状况。
从第一天起,数据科学就一直是 COVID-19 应对措施的前沿。在世界各地,医护人员、科学家、流行病学家和政策制定者正在汇总和共享事件数据,使用近实时的 COVID-19 跟踪器来做出更明智的决策,以对抗病毒。抽象的图论概念突然变得非常具体,以全球社交距离措施的形式出现。与此同时,R0 和“压平曲线”等复杂的统计概念已经侵入大众想象,催生了从表情包到音乐模仿等各种事物。
数据科学如何帮助对抗大流行
在人类历史上,我们第一次共同利用数据和数学的力量来对抗一个共同的敌人。最近几周,我们在数据科学公司Anaconda 的团队特别欣慰地看到世界各地的科学家如何使用我们深爱的 Python 编程语言来贡献力量,帮助公共卫生专家和政府官员确定如何最好地应对新型冠状病毒。这些团队正在使用开源协作和庞大的公共数据集来帮助更清晰地描绘病毒的传播方式,而这些见解正在为今天正在与病毒作斗争的社区带来切实的影响。
以开源项目Nextstrain 为例。Nextstrain 最有价值的举措之一是一个名为Auspice 的交互式 Python Web 应用程序,旨在可视化 COVID-19 的变异方式。与大多数病毒一样,COVID-19 随着时间的推移会发生变异,因为在病毒复制过程中会发生一些小的错误。利用数据科学,基因组流行病学家可以跟踪这些变异,以了解病毒是如何传播的。利用来自世界卫生组织创建的全球共享所有流感数据倡议 (GISAID) 的数据,Nextstrain 团队的 Auspice 应用程序生成了详细的系统发育树,这是一种科学家用来说明病毒随着时间的推移而发生变异方式的可视化工具。
这项工作可能高度学术性,但它已经对现实世界产生了直接影响。2 月份,华盛顿州的公共卫生官员利用 Nextstrain 的数据来指导对冠状病毒的一系列重要政策应对措施,该病毒当时才开始在美国出现。Nextstrain 团队分析了在华盛顿州收集的病毒样本,间隔六周,发现这两个样本都包含了一种在中国采集的样本中很少见到的变异。这提供了强有力的证据,表明 COVID-19 的社区传播正在该州发生,促使州长和西雅图市长宣布进入紧急状态——这一决定可能挽救了数百人的生命。
数据科学进入主流
与此同时,在另一端,普通公民正在迅速转变为业余数据科学家,因为他们正在努力应对现在决定我们日常生活的大部分内容的复杂科学。毫无疑问,冠状病毒对我们甚至在最随意对话中使用的语言产生了深刻而普遍的影响。要证明这种影响,看看梅里亚姆-韦伯斯特词典:今年,梅里亚姆-韦伯斯特组织做出了在其 200 年历史上最快的紧急更新,增加了“COVID-19”一词,该词于 2 月 11 日由世界卫生组织宣布,并在几周后的 3 月 16 日被添加到词典中。
从那以后,人们对围绕冠状病毒的技术语言的兴趣激增,互联网上充斥着数十家媒体机构和各种科学组织制作的冠状病毒词汇表。许多最流行的术语是源于数据科学和统计分析的术语。就在几个月前,普通人可能对 R0 的正确发音感到困惑或狡黠地说“are too!”。现在,这个曾经默默无闻的变量由于深入的新闻报道和社交媒体上的广泛讨论而变得越来越臭名昭著。
在其他地方,看似枯燥乏味的表达,出自公共卫生和数学领域,已经成为著名作家冗长而沉思的散文主题。在《纽约客》上,作者卡伦·拉塞尔写了一段关于她在“压平曲线”等短语中找到的慰藉的优美段落,这是一个根植于图论的简单概念,她说这帮助她将“恐惧变成了行动”。在《洛杉矶时报》上,记者马克·Z·巴拉巴克探讨了“社交距离”等词语和短语作为工具的方式,这些工具不仅让我们了解情况,而且让我们安全。
冠状病毒的语言和数学显然也让我们保持着参与,如果最近的新闻头条能说明什么的话。在 COVID-19 时代,数学和数据科学生成的分析已经成为“突发新闻”警报的主题。我们阅读了关于我们确实应该担心的冠状病毒数学的文章,并观看专家“对病毒传播进行数学运算”的视频。关于数据解释的争论可以演变成彻头彻尾的政治丑闻,我们发现自己正在搜索最新的数据更新,希望能找到保持冷静的理由。
后冠状病毒时代的数据科学
新冠疫情过去后,数据科学、数学和公共卫生等主题的关注度和热度会继续上升吗?可能性不大,至少不会像现在这样高涨。然而,数据科学日益提升的地位可能会产生一些长期的影响。正如近几十年来许多人观察到的那样,美国人因 对专家和学者的不信任而闻名。幸运的是,这种趋势一直在 多年来下降,而最近的皮尤研究中心民意调查表明,在疫情期间,公众对机构的信任度很高。希望随着越来越多的美国人了解我们对抗新冠病毒最强大的工具——科学见解,以及为之付出的辛勤努力的科学家,这种信任度只会不断提高。
如果您想了解更多关于这个话题的信息,我将在 AnacondaCON 第二天的主题演讲中与 Datanami 的 Alex Woodie 坐下来讨论数据在新常态下的作用。您可以在 anacondacon.io 注册免费的线上会议。