AI 的采用率持续增长,2021 年一项调查中 56% 的受访者报告称,至少在一个业务职能中采用了 AI,比前一年增长了 50%。与之平行的是,AI 本身也在快速发展,规模越来越大,速度越来越快,对计算能力和训练数据的需求似乎永无止境。很长一段时间,重点都放在不惜一切代价地追求更大规模:更庞大的数据集、更大的模型以及更广泛的部署。对规模的不断需求,通过传统摩尔定律芯片密度提升、向更专业的硬件(如 GPU)的过渡以及在越来越大的计算集群中使用蛮力相结合的方式得到满足。
然而,使 AI/ML 普及成为可能的往往被忽视的因素是能效。大多数计算环境,无论是移动设备、笔记本电脑、工作站还是数据中心,早就达到了其电力预算的极限。这意味着未来的规模和速度改进必须来自用相同的能量做更多的事情。这种对效率的关注将导致硬件和软件设计人员之间一个新时代的密切合作,以及对数据科学家分析工作流程的更模块化方法。
我们是如何走到这一步的
从历史上看,服务器的高资本成本意味着灵活性和跨广泛任务的性能是可靠系统的标志,这些系统对许多年来说都是有用的。然而,这种灵活性确实带来了一些权衡:由于硬件需要适应各种任务,因此无法针对特定工作负载进行定制以实现最大效率。当大多数人运行的模型规模较小时,这并不是什么大问题,但在数十亿参数模型和万亿数据点的时代,这就不太理想了。
因此,我们开始看到硬件针对特定用例进行专业化,例如 GPU 和 TPU。这种方法确实提高了效率,但前提是有合适的软件生态系统支持硬件。随着专用、定制芯片和服务器的迅速普及,近年来,使软件和硬件良好协同工作变得更加复杂。以 ARM 为代表的移动芯片架构开始在笔记本电脑、台式机和服务器市场上取得重大进展;苹果 M1 等新进入者正在进入市场;仅在 2020 年,风险投资家向美国芯片初创企业投入了 18 亿美元。这是一个产品市场,预计将比以往任何时候都拥有更多的新进入者;即使在不可避免的整合面前,也很明显,对专用硬件的需求不会很快放缓。
那么,数据科学家如何在不受到兼容性挑战的困扰的情况下利用所有这些新选择和创新,从而高效地运行各种工作负载呢?
软件和硬件之间的更紧密关系带来了更高的效率
随着 AI/ML 任务在行业中的部署越来越广泛,我们将开始看到强劲的推动,转向更节能的架构以及软件和硬件的协同设计,以便它们能够更有效地协同工作。这在实践中意味着什么呢?
随着硬件的进步,这些公司在软件开发体验方面的投入也将至关重要。特别是对于数据科学领域,这包括与开源社区的联络,以允许信息双向流动:硬件制造商可以更好地了解从业者的需求和工作流程,而软件开发人员可以了解硬件创新的方向,并创建支持性的架构,这些架构可以针对新的和不断发展的芯片进行优化。数据科学是一个有趣的用例,因为该社区非常依赖开源,这意味着硬件供应商可能并不总是有一个明显的联络点。但是,这种联络努力对于新芯片和服务器的采用以及开源项目的持续广泛兼容性来说是值得的。
更模块化的工作流程方法最大限度地提升了优化机会
创建高效的数据科学体验的责任不仅在于硬件和软件开发人员。数据科学家也需要调整他们的工作习惯,以便从硬件创新中获益,同时将开销降至最低。特别是,他们应该对他们的分析采用更模块化的方法,以便利用最有效地支持其工作流程中每个元素的硬件。这也将使数据科学家能够在时间推移中更容易地混合和匹配硬件和软件,因为新的选择变得可用。单片软件方法在概念上很吸引人,但会限制数据科学家从即将到来的创新中获益的能力。
为了实现模块化工作流程,数据科学家在考虑每个硬件平台和软件包时应该问自己“这个工具最适合做什么?”。建立一个关于哪些硬件和软件包在特定情况下表现良好的心理模型将为数据科学家和 MLOps 人员节省大量时间和精力。当然,这确实是一项具有挑战性的工作,尤其是在有越来越多的选择的情况下,因为新的进入者不断涌现。但是,当您为您的特定用例找到一个很棒的硬件/软件组合时,效率提升将非常显著。
使模块化工作流程更加实用
使模块化分析工作流程可行且易于使用的一个最大组成部分是各种硬件平台和软件包之间的持续集成。这两个长期以来被视为独立实体的因素之间的协调程度越高,混合和匹配以实现最大效率就越容易。数据科学家还可以通过考虑其工作流程中最关键的部分,并专注于将最适合该工作的硬件与最适合这些任务的软件相匹配,来使模块化方法更易于实施。这是最大的收益将来自的地方;在加速只占您整体工作流程运行时间 5% 的任务方面,并没有太大的好处。
不幸的是,今天没有针对所有数据科学工作流程进行优化的银弹硬件解决方案,可能永远不会出现。但就像他们为普通用户解锁了大规模计算能力一样,云提供商可以通过让数据科学家在运行工作负载时更容易地在不同的专用芯片之间移动来发挥重要作用。当然,这种方法的成功将取决于软件和硬件设计人员是否能够跟上彼此并构建互补、兼容的系统。
光明的未来
需要所有各方共同努力才能在 AI/ML 工作流程中实现最大效率,但过去两年的进步已经表明,为这类任务创建具有高性能和低功耗的专用硬件是可能的。随着数据科学家开始更加关注能效,硬件和软件之间的联系和相互作用将变得更加明显和重要。挑战在于将大量软件包引入新平台。能够共同努力应对这一挑战的硬件制造商和软件社区,将从能够利用他们的技术来推动新一波 AI/ML 创新浪潮的数据科学家那里获得重要的市场份额。