2021 年,AI 和数据科学应用的创新、采用和投资趋势持续增长,尽管行业在伦理和偏差等问题上仍然存在增长痛点。对于许多人来说,2021 年是激动人心的一年,数据科学的可能性成熟为对潜在的积极业务影响的更清晰的认识。对于数据科学界成员来说,现在是前所未有的激动人心和重要时刻。
这条轨迹将在 2022 年及以后走向何方?为了找到答案,我们向 Anaconda 的专家和其他行业领先者征求了他们对未来一年的预测。以下是他们对来年值得关注事项的看法。如果你想了解更多关于我们对来年的预测,请收看我们网络研讨会,该研讨会将于 12 月 15 日举行,Netflix、Meta 和 Wikimedia 的领导者将加入我们自己的 Peter Wang,共同讨论 AI 和 ML 在新的一年将走向何方。
兑现负责任 AI 的承诺
AI 伦理挑战从未像现在这样受到公众关注,但该领域仍有许多进步空间。大多数情况下,AI 工作流没有发生根本性变化。相反,一些公司正在构建工具来帮助检测 ML 模型漂移,而行业中的人们则被要求用这些工具和其他工具来约束自己。Anaconda 首席技术官 Kevin Goldsmith 认为,将 AI 的伦理实施留给个人及其组织是无效的,未来我们将看到更多关于 AI 和个人数据使用的监管和行业范围内的治理。这很可能通过政府干预和新的广泛标准来实现,这些标准对于提高 AI 的伦理品质至关重要。虽然完全采用这些标准需要时间,但自我监控在 2022 年及以后将不再适用。
与此同时,这并不意味着从业人员应该放弃对负责任 AI 实践的所有责任。Anaconda 技术咨询总监 James A. Bednar 认为,我们不能忽视伦理实践始于人。随着该领域不断发展,一些有能力的研究人员和从业人员正在努力创造更公平、更有效的 AI,但真正了解负责任和有效地使用这些工具所需的所有方面的 人寥寥无几。新的一年将看到人们更加努力地为个人提供他们需要了解应用领域和 ML 算法的资源,尤其是在云计算和 AutoML 技术变得越来越容易获得的情况下。
创新不再仅仅是为了创新的结束
企业自然会关注最新技术和工具可以为其业务带来的机遇。因此,考虑不同技术将如何真正影响用户通常是次要考虑因素。据社会技术开发实验室Emerge 的创始人兼首席执行官 Lucia Gallardo 称,这种情况将在 2022 年及以后发生变化。随着广泛的利益相关者倡导对技术如何影响个人和社会进行更多监管,这将要求我们放弃对可持续性、包容性和影响力的传统思维方式,并将这些考虑因素从预期成果转变为长期嵌入式战略。伦理问题将加速由环境、社会和公司治理 (ESG) 标准指导的投资,并鼓励努力改善我们衡量影响力的方式。
通过透明的可追溯性解决训练数据和安全挑战
为了满足对复杂数据中心产品的需求,开发人员经常求助于在互联网上“找到”的训练数据。多年来,这种常见做法的伦理和法律含义在很大程度上未得到解决,但据 Anaconda 社区创新高级总监 Stan Seibert 称,2022 年可能标志着一个转折点。关于使用不同数据集的权利以及可能管理这些数据集的许可证的问题,随着 AI 驱动的编码助手的引入变得更加复杂。这些产品使用公共源代码本身作为训练数据。虽然大多数公共源代码都附带许可证,但尚不清楚这些许可证如何适用于模型的训练数据。我们的许可证和版权法律理解需要不断发展,以适应这些新的机器学习用例。据 Stan 称,回答这些问题以及建立指导性先例将是 2022 年的重点。
除了许可问题外,现代软件开发的混搭性质也可能带来安全挑战。由于代码的小片段通常嵌入到更大的项目中,因此很难跟踪代码的来源,尤其是在开源软件领域。随着围绕可追溯性的问题越来越受到关注,以及美国联邦政府介入今年早些时候在行政命令中强调了软件物料清单 (SBOM) 的价值,客户将要求知道在其系统中运行的所有代码的来源。据 Anaconda 产品高级副总裁 Stephen Nolan 称,这种新标准将改变从业人员开发代码的方式。在 2022 年,开发人员将开始更加仔细地监控应用程序和代码安全性,以及在代码开发的所有阶段实施安全措施。期望开发人员不断监控漏洞是不合理的,这就是为什么conda 签名验证之类的解决方案在新的一年对从业人员和企业都很有用。
进一步扩大 Python 的受众和用例
随着企业数据科学团队的增加,越来越多的人使用 Python。该语言最近超过 Java 和 C 成为 TIOBE 指数的第一名,TIOBE 指数是衡量编程语言受欢迎程度的指标,而软件开发人员的需求预计将从 2020 年到 2030 年增长 22%。Anaconda 产品管理总监 Saundra Monroe 认识到,无论是新手还是经验丰富的开发人员,都因 Python 的主导地位和简单性而被吸引,她认为,该语言在新的一年的一个重点领域将是改进初学者成为熟练编码人员的路径。
据我们的专家称,除了扩展到更多编码人员(无论是专业人士、学生、爱好者还是介于两者之间)之外,Python 在 2022 年还将继续扩展到数据科学之外的新用例。Stan 认为,对于微控制器和物联网设备等用例,这些用例通常由其他编程语言主导,由于 MicroPython 和 CircuitPython 的兴起,我们将看到 Python 的采用率增长。从不同的角度来看这个问题,Anaconda 的高级技术客户经理 Joseph J. Currenti 和 Lucia 表示,他们预计 Python 将更多地用于游戏开发,因为开发人员希望利用 AI 来创造更具沉浸感的游戏体验。
通过标准化和教育赋能社区
近年来,软件开发领域的不同工具和社区之间越来越强调标准化和凝聚力。AI 驱动的软件平台Forethought 的高级软件工程师 Sebastián Ramírez Montaño 认为,这种势头在 2022 年只会增强,因为开发人员希望构建受许多工具(如编辑器和云提供商)支持的软件包。这种原则的实际示例包括 Python 类型注释以及async/await 等。标准化工具更容易让开发人员使用,最终有助于增加使用 Python 工作和开发的社区数量。
据 Sebastián 称,2022 年发展 Python 社区的另一个关键是改进对 async 和 await、并发、线程和任务本地状态等方面的教育,因为正确使用它们是获得更高吞吐量性能的关键。随着程序员越来越多地使用分布式系统、微服务以及与其他工具的集成来完成任务(如将 ML 服务系统与 Python API 连接起来),这些并发相关功能将至关重要。
展望激动人心的一年
从努力减轻 AI 模型中的偏差到 Python 的统治地位,数据社区经历了一年蓬勃发展。我们很高兴看到该领域在未来一年中取得进一步进展,并在企业环境中数千种不同用例中得到更广泛的采用。数据科学真正适合每个人,我们很自豪能成为其中的一部分!加入我们的网络研讨会,在 12 月 15 日美国东部时间下午 2 点/太平洋时间上午 11 点聆听行业领导者的更多预测。