面向开源数据科学和 ML 的 AI 平台的权威指南

探索各行业顶级的开源工具和用例。采取战略性行动，赋能从业者和团队构建、部署和维护安全的 AI 解决方案。

审阅和维护者

Joseph Currenti, Anaconda 技术客户管理和解决方案架构高级经理
Chris Styduhar, Anaconda 产品管理总监（企业级）
Nanette George, Anaconda 资深产品营销经理

不可否认的是，人工智能 (AI) 正在迅速改变我们所知的生活。领先的科技公司正在大力投资，谷歌 CEO Sundar Pichai 将 AI 的影响比作电力和火。那些采用 AI 来改进产品和服务的组织，正在看到其投资的显著财务回报。我们才刚刚开始看到 AI 的承诺变为现实。

然而，对于许多组织而言，通过 AI 实现业务价值仍然是一个难以实现的目标。工具日新月异，用例分散且散布在整个企业中，并且将有用的 AI 部署到生产环境中极其复杂。希望应用机器学习和深度学习来解决业务问题的数据科学和工程团队，面临着令人困惑的平台、库和软件阵列。

评估并决定如何应用最新的工具和技术来开发、部署和维护高性能模型，需要人员之间的跨职能协作、对技术的战略投资以及流程的不断调整。

我们创建本指南旨在成为关于 AI 平台、常见用例以及评估 AI 平台时需要考虑的因素的便捷参考。如果您觉得本页内容有帮助，请将其加入书签并与同事分享。

引言

在本指南中，我们将介绍面向开源数据科学和机器学习的 AI 平台。

我们将定义并考虑 AI 平台的优缺点，这些平台可以促进您开发和部署数据科学和机器学习算法、模型和系统。我们将探讨企业组织中的常见用例，以及在您寻求大规模利用 AI 能力时可供您使用的一些开源工具。最后，我们将分享在考虑 AI 平台时的最佳实践，包括向潜在的技术提供商提出的问题。

AI 平台、数据科学和开源

让我们从基础知识开始，为那些正在学习 AI 平台、机器学习和深度学习的人提供信息，同时也为我们将在本指南中思考工具和技术的方式奠定基础。

什么是 AI 平台？

人工智能 (AI) 平台是一组集成的技术，允许人们开发、测试、部署和刷新机器学习 (ML) 和深度学习模型。AI 应用工具和技术的组合，使机器能够比人工手动更快、更准确地分析数据、做出预测和采取行动。

企业级 AI 平台使组织能够大规模构建和维护 AI 应用程序。AI 平台可以

集中数据分析和数据科学协作
简化 ML 开发和生产工作流程，有时也称为 ML 运维或 MLOps
促进数据科学和工程团队之间的协作
自动化开发 AI 系统过程中的某些任务
监控生产中的 AI 模型和系统

如何使用 AI 平台？

有很多方法可以为数据科学和工程从业人员准备 AI 平台。您的方法将根据组织的财务资源、团队的计算和数据处理基础设施以及团队的专业知识而有所不同。一般来说，在为团队创建协作构建和部署 AI 的环境时，您有三种选择

选择 1：购买端到端 AI 平台

有一些大型企业主导着端到端 AI 平台市场。Google Cloud Platform (GCP)、Microsoft Azure 和 Amazon Web Services (AWS) 都是该领域的领导者，为希望将 AI 融入运营的组织提供端到端解决方案和工具，例如 AWS Sagemaker。这可能是一个昂贵的选择，可能会让您只能使用某些工具或技术，因此仔细评估 AI 平台提供的特定价值非常重要。

每个平台都有其自身的优势和劣势，因此选择一个适合您的特定用例，并且可以与您在整个组织中已有的其他技术无缝集成的平台非常重要。

优势

您可以快速启动并使用具有企业级支持的工具。工具和软件经常更新，以获得更好的可靠性、性能和安全性。

挑战

工具可能未针对您的特定用例进行配置，这将需要在开始时计划更多的工程支持。随着您的项目不断发展，并且您在此过程中重新调整资源，您之前选择的工具可能无法支持新的需求。

选择 2：构建您自己的 AI 平台

许多企业组织选择构建自己的 AI 平台。选择构建自己的 AI 平台通常取决于您的项目负责人是否希望该 AI 技术堆栈的某些元素由组织构建和拥有。

这就是颠覆者 Uber 和 Netflix 所做的事情；他们通过将自己的开源工具、专有模型以及云基础设施或计算资源的企业提供商组合在一起，构建了自己的 MLOps 和 AI 平台。这些公司通过利用数据科学、开源工具和专有算法来颠覆传统行业，从而树立了 AI 成功的标准。

优势

这种方法可以让您和您的团队更好地控制您的工作流程、开发过程和部署策略。它还允许您随着业务需求随时间推移而快速响应。

挑战

您将在开始时花费更多的时间和费用来开发您自己的平台和支持能力。您还将负责维护系统的持续费用。

选择 3：开源软件

开源软件是构建、部署和维护 AI 应用程序的绝佳选择。它允许您选择最适合您的特定用例的工具，并利用开源工具、库和框架的贡献从业者群体的力量和创新。

Anaconda 是数据科学家中的热门选择，因为它允许他们构建环境，在其中他们可以导入和访问可用于数据科学的最佳开源工具。它是一个 Python 原生应用程序，拥有 3000 万用户，他们为开源数据科学软件的创新、安全性和技术做出贡献。

Anaconda 可以成为您 AI 平台不可或缺的一部分，它专为那些看到开源机会价值的数据科学和 Python 用户而设计。IT 管理员喜欢 Anaconda，因为他们可以使用它来集中和保护数据科学团队的工作，这些工作为机器学习模型和系统的开发和生产提供支持。 Microsoft 和 Snowflake 已将 Anaconda 嵌入到他们的数据科学和 ML 产品中，以便轻松加速数据科学探索和生产部署。

优势

这种方法使您的从业者可以访问最适合您的用例的工具。用户可以访问可以加速开发的仓库、项目和代码。可以使用开源生态系统中人群的力量，更早地识别和验证开源工具和软件包中的安全漏洞。

挑战

您将需要一种开源思维模式，这需要深入的协作。您还需要一支才华横溢的团队，他们对要解决的问题有清晰的理解，并且能够获得持续的培训和技能提升机会。

开源在数据科学和机器学习中的优势

使用免费的开源工具和库，您可以快速创建强大的 AI 解决方案，而只需最少的精力。使用开源软件有很多好处，包括与他人协作、为开源社区做出贡献以及以最小的限制分发软件的能力，具体取决于软件许可证。

Python 是最流行的开源软件工具，可用于数据科学和 AI。它是一种通用的语言，可用于数据科学、AI、机器学习和深度学习。Python 之所以如此通用，是因为它拥有充满活力且强大的开放科学生态系统，以及庞大的开发者社区，他们创建了库和工具，使其更易于使用。R 是另一种专门为统计分析和数据可视化设计的语言。它也广泛用于机器学习和深度学习。

任何人都可以使用这些工具，而无需支付许可证费用。这使得它们可以被广泛的人群使用，包括可能无法负担专有商业工具的学生和研究人员。

开源软件在数据科学和机器学习方面的优势包括

低准入门槛：以低成本甚至零成本访问一些可用的最佳工具
可靠性、安全性和速度：社区的力量
访问开源工具和人才：使用这些工具的社区
用于数据科学和 ML 的数据和模型库
数据科学和 ML 开源教育

为什么有如此多的 AI 解决方案？

最近 AI 的爆炸性增长，正如生成式 AI（包括 Stable Diffusion 和 ChatGPT）的进步所证明的那样，很大程度上归功于一种称为深度学习的机器学习形式。例如，自动驾驶汽车和智能助手的进步，归因于深度学习模型的显著改进。

深度学习基本上是旧概念的新术语：神经网络，它是对数字数组执行的一系列数学运算的集合。但是，深度学习技术生成的模型比传统的神经网络要复杂或“深”得多，并且还涉及更多的数据量。

在过去的几年中，海量数据、深度神经网络的开源进步以及强大的硬件和计算或处理速度的结合，导致了许多领域的突破，包括图像分类、语音转录和自动驾驶。这些进步带来了巨大的经济影响。

尝试部署模型的数据科学家发现自己身兼数职：数据科学家、软件开发人员、IT 管理员、安全官。他们努力构建和包装他们的模型、服务他们的模型、路由流量和处理负载均衡，并确保所有这些都安全地完成。然而，要通过 AI 实现业务价值，模型必须部署。而模型部署和模型管理是难以完成的任务，更不用说自动化了。

开源社区才刚刚开始创建工具来缓解模型开发、训练和部署方面的这一挑战。这项工作的大部分是由大型公司的研究人员以及 Uber 和 Netflix 等初创公司转型的企业公司团队完成的。

最初，Uber 的数据科学家只能在他们的笔记本电脑上训练他们的模型，这限制了他们将模型训练扩展到构建强大模型所需的数据量和计算周期的能力。该团队没有存储模型版本的流程，这意味着数据科学家浪费了宝贵的时间来重新创建同事的工作。因此，Uber 构建并继续发展其自己的机器学习运维 (MLOps) 平台 Michelangelo。

虽然 Uber 和其他公司已将机器学习应用于创新产品，但他们一开始并没有用于将模型部署到生产环境的标准流程，从而严重限制了他们工作带来的潜在业务价值。Uber 团队报告说，没有既定的将模型部署到生产环境的路径——在大多数情况下，相关的工程团队必须为项目创建特定的自定义服务容器。

为了专注于构建更好的模型，谷歌、Uber、Facebook 和其他领先科技公司的数据科学家构建了自己的 AI 平台。这些平台自动化了构建、训练和大规模部署 AI 所需的支持基础设施（称为胶水代码）。

各行业的 AI 用例

探索这些进步在当今行业中的具体应用示例。

根据麦肯锡 2022 年 AI 现状调查和报告，AI 的采用和投资正在增加，应用 AI 的组织正在产生可观的回报。常见的 AI 用例包括服务和产品开发，并且 AI 功能始终在不断添加到列表中。

麦肯锡 2022 年 AI 现状调查包括来自所有地理区域、行业、组织规模和专业的 1,492 名受访者。一半（744 名）的调查参与者组织采用了 AI，这些受访者提供了有关他们使用 AI 的详细信息。数据根据每个国家在全球 GDP 中的贡献进行加权。

此外，虽然 AI 可以为您的组织带来巨大的机遇，但请记住，它也为您的竞争对手带来了巨大的机遇——包括您今天可能没有竞争，但由于他们在应用 AI 方面的进步而很快就会与之竞争的组织。信息很明确：组织必须立即采用 AI，否则就有被抛在后面的风险。

国际数据公司 (IDC) 预测，到 2026 年，全球 AI 市场将增长到 9000 亿美元。 IDC 的报告预测复合年增长率为 18.6%。深度学习在图像分类、语音识别、手写转录和文本到语音转换等领域取得了惊人的突破。

让我们探索一些这些进步在当今行业中的具体应用示例。

银行业

多年来，银行一直在通过改变客户与银行互动的方式（尤其是远程互动方式）来创造业务价值。对于某些消费者而言，使用移动银行应用程序是他们与 AI 的首次互动之一：银行使用计算机视觉来检测移动支票存款中的支票欺诈，消费者在其中拍摄支票正反两面的照片，将资金存入他们的帐户。

麦肯锡 2021 年 5 月的研究估计，考虑到 AI 如何降低成本、减少错误并为银行组织创造新的机会，全球银行业的人工智能技术每年可能创造高达 1 万亿美元的额外价值。

以下是银行业中常见的 AI 用例

欺诈检测：机器学习最常见的应用是欺诈检测。欺诈检测算法可用于在几秒钟内解析来自数千条交易记录的多个数据点，例如持卡人身份数据、发卡地点、交易发生时间、交易地点和交易金额。

为了实施欺诈检测模型，数据集中应已存在多个准确标记的欺诈实例，以便正确训练模型。一旦模型检测到交易数据中的异常，就可以对通知系统进行编程，以便在模型识别出可疑交易时立即向欺诈检测服务发出警报。

欺诈检测是一种异常检测算法。这些算法也可以应用于公司其他领域的数据集，以达到不同的目的，例如网络入侵检测。这就是为什么一些公司发现投资企业数据科学平台比购买现成的模型或有针对性的分析解决方案更有价值的原因之一。

信用评分：银行还依靠 AI 来建立准确的信用评分。通过实施信用评分算法，金融机构不必依赖美国三大评分报告公司的通用评分。许多贷款机构看到了开发自定义信用评分模型的优势，这些模型利用机构自身的客户活动数据，而不是美国三大评分报告机构的通用评分，以更好地预测新信贷额度的风险或机会。通过这样做，他们可以减少因贷款核销、利息收入延迟以及尝试收取滞纳金的服务成本而产生的拖欠成本。可以实时重新评估客户。机器学习（预测）算法用于在新数据滚动时更新这些分数，确保他们使用最新的信息。它依赖于过去贷款的数据，前提是有足够的良好和不良贷款数据来有效地训练它们。
信用风险分析：这些预测算法也可以在宏观层面使用，以评估风险并预测市场走势。金融机构使用信用风险分析模型来确定潜在借款人违约的可能性。这些模型提供有关借款人在任何特定时间的信用风险水平的信息。如果贷方未能提前检测到信用风险，则会使他们面临违约和资金损失的风险。贷方依靠信用风险分析模型提供的验证来做出关键的贷款决策，即是否向借款人提供信贷以及收取的信贷额度。

银行业中其他常见的 AI 用例包括

账户风险分析
信用额度调整审批
客户细分
个性化优惠
战略定价模型

电子商务

亚马逊是最早向消费者介绍电子商务 AI 的公司之一，但在当时，它看起来更像是一种魔术，来自一家新的在线图书销售商。2003 年，亚马逊的研究团队发表了一篇关于他们使用称为协同过滤的推荐算法来预测客户偏好的论文，最初是使用其他购物者的偏好。

亚马逊的 AI 团队了解到，在产品级别分析购买历史记录比在客户级别分析结果产生更好的推荐。这是一项开创性的工作，从那时起，电子商务公司已显著扩展了他们对 AI 的使用。

电子商务中常见的 AI 用例包括

产品推荐：预测分析为高级推荐系统提供支持，这些系统分析网站和应用程序访问者的历史购买记录，以推荐更多产品。运行这些系统的模型基于使用相同类型产品或提供相似客户评分的类似用户的选择。
产品运输模型：预测分析也以预期运输模型的形式使用。他们预测客户最有可能购买的产品和模式，并确保这些商品在最近的仓库中备货。
价格优化：电子商务还使用 AI 进行价格优化，为热门商品提供折扣，并从不太受欢迎的商品中获利。欺诈检测是另一个领域，通过使用算法来检测欺诈卖家或欺诈购买行为。

电子商务中其他常见的 AI 用例包括

A/B 测试
聊天机器人和虚拟助手
客户流失预测
客户重定向
需求预测
动态定价
欺诈检测
一线员工排班和赋能
图像处理
个性化
路线优化
销售流程改进
网站搜索引擎

能源

能源管理组织正在以越来越快的速度应用 AI；根据 Research and Markets 2022 年 8 月发布的研究，全球能源 AI 市场预计将从 2022 年到 2030 年增长 21%。随着全球能源生产和消费的增长，能源 AI 用例也在不断增长，组织使用 AI 来提高能源效率、电网稳定性和智能能源解决方案。

能源领域常见的 AI 用例包括

异常检测
需求预测
数字孪生（模拟）
高效的能量存储
前端工程和设计 (FEED) 自动化
库存管理
物流优化
市场定价
新材料发现
预测性维护
生产优化
安全
智能电网和微电网
存储效率
使用情况预测

金融

金融组织一直在应用机器学习来发现洞察力、更快地做出关键决策以及自动化与公共市场交易相关的大量手动任务。

交易员看好 AI。在摩根大通公司 2023 年 2 月发布的一项调查中，交易员分享了他们认为 AI 和机器学习将在未来几年对金融市场产生最大影响的方式。超过一半的 835 名受访者（他们是机构和专业交易员）预计 AI 将在未来三年内对交易产生重大影响。这高于 2022 年的约 25%。

金融领域常见的 AI 用例包括

高级分析：对冲基金在机器学习和其他高级分析技术上投入了巨资，因为他们不断寻找新的信息来源以做出更好的交易决策。强大的量化模型是对冲业务的核心支柱，基金成为深度学习的早期采用者也就不足为奇了。

由于有如此多的资金处于风险之中，对冲基金越来越多地转向“另类数据”以生成市场趋势的领先指标。例如，他们可以将卫星图像输入到 GPU 加速的神经网络中，这将估算从港口中的船舶数量到田野中生长的农作物数量的一切信息。通过使用深度学习技术生成更高质量的输入，他们可以改进其现有量化模型的输出。

合同处理：自然语言处理 (NLP) 用于金融行业处理合同。通过应用 NLP 模型来读取和解析合同，可以显著减少冗余劳动时间。例如，摩根大通开发了一种他们称为 COIN（合同智能）的文本挖掘解决方案。COIN 通过解析文档以查找某些单词和短语来帮助分析商业贷款合同，每年为公司节省 360,000 小时。
客户沟通：将 NLP 模型应用于社交媒体、电话记录和客户服务聊天平台上的客户沟通，使金融机构能够对客户反馈进行分类并衡量情绪，从而更好地了解他们的客户。AI 提供了分析评论情绪以了解意图、识别模式以提出改进领域或在问题影响大量客户之前标记问题的能力。

金融领域中其他常见的 AI 用例包括

回报率分析
投资组合管理
市场和交易风险
市场价格模拟

政府部门

公共机构比私营部门的组织具有优势：收集了大量高精度的数据，并被授权使用这些数据为公民提供更好的服务。政府机构在应用 AI 时面临的主要挑战是保持数据安全。某些数据受到法律保护，例如个人健康和财务信息。各国和各州必须保护基础设施和军事数据免受大规模部署的 AI 解决方案可能相关的风险。

根据 Market Connections 和 Science Applications International Corporation (SAIC) 对商业和 IT 领导者的调查，在 2023 年 1 月发布的一份报告中，多云策略和软件开发过程 (DevSecOps) 以及 AI 中的安全性都是政府当前面临的挑战。

政府部门常见的 AI 用例包括

应急响应：整合来自多个来源的数据的能力为地方政府和当局的应急响应能力带来了显著的优势。实时分析有助于支持在压力情况下的即时决策。控制多个通信渠道、使用识别潜在威胁的智能工具以及发送警报的能力，使地方当局有机会警告公民并就进一步的行动向他们提供建议。

政府部门中其他常见的用例包括

高危人群支持
福利管理
气候分析
犯罪检测
数字化转型
经济分析
设备监控
欺诈检测
健康预测
军事支持
人员战备状态
安全威胁
服务现代化
贸易监控
武器创新

医疗保健

医疗保健是一个高度监管的服务提供领域，AI 应用程序的引入永远地改变了医疗保健，这些应用程序可以比人类更快地识别医疗问题，而且通常更准确。AI 辅助技术使改进诊断分析、描述性分析、处方分析和预测分析以预测个人的诊断结果成为可能。

哈佛大学和麦肯锡的研究人员在 2023 年 1 月的一篇论文中称，AI 的采用可能会带来 5% 到 10% 的节省，即每年节省 2000 亿到 3600 亿美元。这些估计考虑了未来五年内可用的当前技术的 AI 用例。

医疗保健领域常见的 AI 用例包括

疾病检测和诊断：视觉数据处理有助于放射科医生更快地读取图像以进行诊断，例如肿瘤检测。近年来，放射科医生的工作量显著增加。一些研究发现，平均放射科医生必须每 3-4 秒解释一张图像才能满足需求。

研究人员开发了深度学习算法，这些算法在先前捕获的放射影像上进行训练，以识别肺部、乳房、大脑和其他区域肿瘤的早期发展。可以训练算法以识别放射影像数据中的复杂模式。

休斯顿卫理公会研究所开发的一种早期乳腺癌检测工具以 99% 的准确率解读乳房 X 光片，并减少了活检的需求。它还提供诊断信息的速度比人类快 30 倍。这改善了患者护理，并帮助放射科医生更好地完成他们的工作。

AI 也用于皮肤癌诊断。一些研究人员使用卷积神经网络 (CNN) 开发了机器学习模型，用于皮肤癌检测，使用 TensorFlow、scikit-learn、Keras 和其他开源工具的准确率达到 87-95%。相比之下，皮肤科医生在检测黑色素瘤方面的准确率在 65% 到 85% 之间。除了皮肤癌诊断外，研究人员还在使用 CNN 开发用于诊断肺结核、心脏病、阿尔茨海默病和其他疾病的工具。

医疗保健领域中其他常见的用例包括

护理交付
慢性病管理
临床决策支持
数据管理
数字病理学
疾病预测
疾病研究和治疗
药物开发
紧急调度优化
基因医学
医疗保健公平性改进
医学影像分析
患者自我护理和健康
远程医疗能力

保险

保险业具有悠久的定量传统；然而，这个受到严格监管、规避风险的领域不像姊妹行业银行和金融那样关注数据科学和机器学习。然而，保险组织一直在从零散的技术方法（系统接系统地转型）转变为由业务线和部门负责人主导的举措，他们正在与首席信息官 (CIO) 和首席技术官 (CTO) 合作。

在其《2023 年保险展望》中，德勤金融服务中心敦促保险组织将技术战略和投资重点放在客户细分、产品支持和增值服务方面，以区分保险公司。

保险领域常见的 AI 用例包括

承保评估：房屋屋顶的状况对于准确评估保险范围至关重要。传统上，许多保险公司依靠房主报告的屋顶年龄来评估屋顶状况，这种方法显然容易出错。但是，借助深度学习，保险公司可以使用屋顶的照片来创建深度学习模型，这将更准确地表示屋顶的质量。这使保险公司能够降低房屋保险风险。
索赔调整：保险公司也在使用图像分类技术，以更快、更准确地完成保险理算员的工作。深度学习模型无需保险理算员读取事故车辆的里程表，而是可以摄取里程表的照片并确定正确的读数。

再次强调，重要的是要注意，这些公司并没有抛弃他们现有的模型，转而采用全新的方法。相反，他们正在利用新的 AI 技术来改进模型的输入。

保险中其他常见的 AI 用例包括

个性化优惠
战略定价模型
客户细分
财产分析

制造业

多年来，制造业的领导者一直在应用机器学习来优化安全性、产品质量和大规模商品交付。制造业中应用 AI 的机会似乎数不胜数，因为该行业在很大程度上依赖于硬件和软件来交付产品。

边缘 AI 依赖于现场传感器将数据传输到组织和分析数据的平台，这是制造业中常见的用例。这也称为 IoT 或物联网。行业专家吹捧另一种方法，称为自适应 AI，认为它是应对云和边缘数据挑战的关键。

制造业中主要的 AI 用例侧重于预测模型，以预测与供应链、维护、物流和库存等相关的关键因素。AI 可以带来巨大的好处，对于制造商而言，这意味着更低的成本、更快的交付和更高的质量。

制造业中常见的 AI 用例包括

质量控制：图像识别和异常检测是机器学习算法的类型，可以快速检测和消除有缺陷的零件，防止它们进入车辆制造工作流程。零件制造商可以在每个组件从装配线下线时捕获其图像，并自动将这些图像通过机器学习模型运行，以识别任何缺陷。

高度准确的异常检测算法可以检测到毫米级以下的缺陷。预测分析可用于评估有缺陷的零件是可以返工还是需要报废。在这个阶段消除或返工有缺陷的零件比稍后发现和修复它们的成本要低得多。它可以节省后续制造过程中更昂贵的问题，并降低代价高昂的召回风险。它还有助于确保客户安全、满意度和忠诚度。
供应链优化：在整个供应链中，分析模型用于识别不同营销策略、销售价格、地点和许多其他数据点的需求水平。最终，这种预测分析决定了不同设施所需的库存水平。数据科学家不断测试不同的场景，以确保理想的库存水平，并在最大限度地减少不必要的持有成本的同时提高品牌声誉。

优化模型有助于指导库存从制造商到配送中心，最终到面向客户的店面的确切流动。机器学习正在帮助零件和车辆制造商及其物流合作伙伴更高效、更盈利地运营，同时提升客户体验和品牌声誉。

制造业中其他常见的 AI 用例包括

数字孪生（模拟）
边缘 AI
能源管理
生成式设计
库存管理
准时制物流
市场分析
预测性维护
预测产量
价格预测
流程优化
生产优化
质量保证
机器人技术
根本原因分析

零售

零售业在过去几年中遭受了相当大的打击，COVID-19 大流行迫使零售商关门歇业，并适应非接触式购物、服务和交付。那些能够快速适应的零售商将零售业提升到了以客户为中心的服务新高度，对于许多品牌而言，这加强了他们与客户的关系。

大型零售商塔吉特和沃尔玛推出了汽车餐厅式交付和在线购买店内提货 (BOPIS) 服务，一些零售商（如劳氏家装）匆忙实施这些服务，以满足疫情迫使商店关闭时的客户需求。然后是俄罗斯对乌克兰的战争，随之而来的是供应链挑战，这削弱了大小零售商的库存能力，从而影响了他们的利润。

AI 为零售商提供了令人难以置信的机会，其中包括：更深入地了解他们的客户以及个性化能力，以吸引他们最有价值的客户。

零售中常见的 AI 用例包括

定制服务：价值数十亿美元的护肤品牌玉兰油在 2016 年推出了使用神经网络的“皮肤顾问”应用程序，并使其销售转化率翻了一番。潜在客户提交照片，模型会返回定制的皮肤评估，并建议客户购买矫正产品。

虽然这可能看起来像是一种新奇产品，但它产生了重大的财务影响。由于该应用程序，平均购物篮大小，或客户一次购买的商品数量，增加了 40%，转化率翻了一番。通过利用 AI，玉兰油提供了个性化的购物体验，客户的回应是购买更多产品。

零售中其他常见的 AI 用例包括

客户细分
需求预测
交付调度和路线优化
库存优化
货架图创建
产品推荐
供应链优化
劳动力调度和管理

AI 平台中需要关注的 7 项能力

AI 的成功归结于组织大规模构建机器学习模型并快速部署它们的能力。这些是在您的 AI 平台中寻找的关键功能，以确保您可以将更多模型更快地投入生产。

1. 自动化

自动化是加速整个数据科学生命周期的规模和速度的关键加速器。一旦团队确定了成功的流程、技术或框架，他们就可以对其进行自动化，并根据输出和结果的准确性，在必要时重新校准自动化。

开发和部署模型的复杂性可能会阻碍迭代。但团队必须继续回顾和刷新模型，因为在实际部署模型的点以及根据模型的预测在现实生活中采取行动的点，地面实况或条件会发生变化。

寻找一个战略性地应用自动化的 AI 平台，使其团队更容易加速自动化性能始终如一的成熟模型。将最新的和最佳的工具集成到您的数据科学和机器学习环境中应该很容易。

2. IT 支持和治理

利用开源工具进行机器学习的力量包括保持对整个 ML 管道的控制。IT 管理员必须能够根据职位或角色配置帐户、跟踪用户，并使从业人员更容易共享和协作他们的项目。IT 组织需要完全控制其开源供应链，包括跟踪从软件包到源代码到部署日志的整个项目沿袭的能力。

这种方法使数据科学家能够控制模型沿袭，并允许成功模型的可重复性。它允许 IT 管理员表明从业人员正在使用批准的软件包，可以访问他们需要的计算资源，并且符合企业 IT 和安全策略或法规。

寻找一个 AI 平台，使您的 IT 管理员能够控制和治理软件供应链，为他们提供管理用户访问和提供审计详细信息所需的工具。

3. 规模

规模在 ML 模型训练和生产中的重要性怎么强调都不为过。仅仅在笔记本电脑上使用数据子集构建和训练模型是不够的。数据科学家必须扩展他们的模型训练以构建强大的模型，这意味着他们需要集中的工作流程，使他们能够设计和构建分析和机器学习模型，与其他从业人员协作，并跟踪他们的实验和迭代。

对于 IT 和安全团队而言，规模需要合适的工具来安全地将这些模型部署到生产中，并确信他们可以快速识别和减轻安全风险。

得益于 GPU 和 TPU，这种规模的模型训练现在在经济上是可行的。但是部署这些大规模的计算能力需要大量的支持基础设施。因此，今天的挑战不是在哪里找到计算能力，而是如何管理支持它的环境。

寻找一个可以根据您的喜好（在线或离线）部署的 AI 平台，并且可以处理您组织的需求、用例和吞吐量，随着您扩展 AI 的应用而扩展。

4. 安全

对于首席安全信息官 (CISO) 和 IT 管理员而言，保护开源软件供应链至关重要。数据科学家通常使用开源软件包来开发和测试机器学习模型，分析其结果的准确性、可扩展性和许多其他因素。在此过程中，他们经常将软件包直接下载到他们的笔记本电脑上并在那里运行它们。

这种情况使 IT 管理员处于不利地位，因为公共来源带来了额外的风险，必须不断监控和减轻这些风险。

寻找一个 AI 平台，其维护者和作者是您团队将使用的工具和技术方面的专家，可以将机器学习模型从构建阶段转移到高性能生产部署。优秀的 AI 平台将拥有监控开源软件包和工具中的 CVE 的可靠记录，使用自动化和手动管理，整合来自开源社区报告的错误和反馈。

5. 支持

支持通常是企业买家最后寻找的功能之一，它是任何 AI 平台的关键要素。特别是当团队使用开源软件时，他们将需要可靠的错误报告和跟踪、引人入胜的培训资源以及持续的支持。

寻找一个提供您的团队所需支持的 AI 平台，从入职支持到学习资源，再到您需要时的即时支持。确保构建和维护您的 AI 平台的组织优先考虑企业支持，并且即使在面临数据泄露或应用 AI 不利影响的严重处罚的高度监管行业中，也能够大规模提供支持。

最佳 AI 平台将为您提供支持提供的优先级矩阵，如下例所示。

*Anaconda 的支持优先级矩阵显示了它如何处理客户问题，基于受影响的用户、是否有可用的解决方法以及问题的紧迫性。*

6. 开源工具

一个出色的 AI 平台将具有支持使用开源软件进行数据科学和机器学习的集成。寻找一个可以轻松访问 Jupyter Notebook、Keras、Matplotlib、Scikit-learn 和 TensorFlow 等工具的 AI 平台。

某些平台将允许您集中管理这些工具的工作流程，这意味着您的数据科学和 ML 从业人员可以协作、共享数据和比较模型，并且您的 IT 管理员可以配置帐户、管理访问权限并确保安全。

寻找一个让您可以轻松访问开源工具和存储库的 AI 平台。确保他们按版本、软件包和日期跟踪这些平台上的 CVE。最佳 AI 平台由组织和团队构建和维护，这些组织和团队通过贡献研究、资源和人才，深入参与开源社区，从而增加了人才和研究的多样性，并增加了可用于数据科学和机器学习从业人员的创新技术的数量。

7. 开源贡献

寻找一个与开源社区及其贡献者保持紧密联系的 AI 平台。最佳 AI 平台将与开源社区深度连接，以支持创新和强大的安全性，其团队和生态系统会进行漏洞管理。当开源软件的作者受雇于您选择的 AI 平台的运营组织时，情况会更好。

请记住，组织可以通过多种方式为开源社区做出贡献。一些组织通过创建集成或在其产品中嵌入对关键工具的访问来投资开源软件。其他组织通过共享最佳实践来为开源做出贡献，这些最佳实践包含在数据科学和机器学习从业人员可以轻松访问的内容中。

一些组织聘请开发人员关系 (DevRel) 团队，其中包含开源数据科学、软件开发和机器学习方面的专家，并在整个生态系统中就内容进行协作，以帮助教育社区。

向您的 AI 平台提供商提出的问题

围绕 IT 支持和治理、安全性、开源等问题询问潜在的技术提供商这些问题。

自动化

1. 将开源编排工具集成到 AI 平台需要什么？

IT 支持和治理

2. 描述用于跟踪数据沿袭和监控数据质量的系统。您是否有工具来管理数据目录、元数据和其他工件？

3. 您如何保护数据以符合欧洲的 GDPR（通用数据保护条例）、CCPA（加州消费者隐私法案）和其他隐私法规？

规模

4. 我们的数据科学家将如何创建用于实验和模型训练的环境？描述步骤。

5. 使用您的平台设置在线预测系统有多容易和高效？

6. 您提供哪种硬件支持？该硬件的成本是多少？

安全

7. 使用此平台，访问控制是什么样的？描述管理员配置帐户或停用访问权限的步骤。

8. 您的平台如何跟踪日志记录、监控和警报？为 IT 管理员描述这些功能的过程。

9. 您的团队监控影响您平台用户的常见漏洞和暴露 (CVE) 的深度是多少？

支持

10. 入职需要多少用户工作量？

11. 是否持续提供培训？用户在哪里访问培训，培训资料库多久添加一次材料？

12. 描述在发生影响我们客户或用户的紧急技术问题时，与 Anaconda 的支持团队联系的过程。您如何确定中断及其影响的优先级？

开源工具

13. IT 管理员将如何使用您的平台为数据科学家和工程师配置开源工具（例如 Jupyter Notebook、MLflow、Scikit-learn 或 TensorFlow）？

14. 您的平台如何保护我们的数据科学家正在使用的软件包？

开源贡献

15. 您是否为开源社区做出贡献？描述您的组织如何参与开源生态系统。

Anaconda：安全、集中的 Python 解决方案

借助 Anaconda，您的数据科学家可以专注于进行数据科学研究，而不是在 DevOps、软件工程和 IT 任务中苦苦挣扎。一个平台提供了他们连接、共享和部署项目所需的所有工具。

Anaconda 的平台可以轻松地自动化您组织的 AI 管道，从笔记本电脑到训练集群再到生产集群。Anaconda 支持您的组织，无论规模大小，从使用一台笔记本电脑的单个从业人员到数千台机器。Anaconda 自动化了无差别的繁重工作，即阻止组织大规模快速训练和部署模型的粘合代码。

借助 Anaconda，您的数据科学家可以专注于进行数据科学研究，而不是在 DevOps、软件工程和 IT 任务中苦苦挣扎。一个平台提供了他们连接、共享和部署项目所需的所有工具。

从 IT 角度来看，Anaconda 提供自动化的 AI 管道。Anaconda 的云原生架构使扩展变得简单。安全官可以确信，所有数据科学资产（软件包、项目和部署）都通过自动配置的适当访问控制进行安全管理。

常见问题解答

什么是 AI 平台？

AI 平台是一种软件解决方案，使企业能够开发和部署 AI 驱动的应用程序。它通常包括一组用于数据科学家、开发人员和业务用户的工具和服务，以及用于部署 AI 模型的运行时环境。

一些流行的 AI 平台包括 Google Cloud Platform (GCP)、Amazon Web Services (AWS)、IBM Watson、Microsoft Azure 和 Anaconda。这些平台中的每一个都提供不同的功能和服务集，因此选择最适合您组织需求的平台非常重要。

我如何理解如何构建 AI 平台？

这个问题没有一概而论的答案，因为构建 AI 平台的最佳方式取决于项目的具体目标和要求。但是，有一些通用技巧可以帮助您入门。

首先，重要的是要清楚地了解您希望 AI 平台实现什么目标。您希望它完成哪些具体任务或目标？一旦您对自己的目标有了很好的了解，您就可以开始研究哪种 AI 技术最适合您的需求。

考虑 AI 平台的部署和使用方式也很重要。它将部署在本地还是云端？它将供内部团队使用还是提供给外部客户？这些因素将影响您平台的架构和您使用的技术。

最后，不要忘记考虑构建和维护 AI 平台的成本。根据项目的大小和复杂性，这可能是一笔巨大的开支。确保相应地制定预算，并记住您平台的早期版本可能并不完美——因此不要害怕在继续开发时进行迭代和实验。

什么是对话式 AI 平台？

对话式 AI 平台是一种软件应用程序，使用户能够以自然的方式与 AI 代理进行交互，使用对话作为主要界面。对话式 AI 平台的目标是通过提供比传统的基于文本或图形界面的更用户友好的界面，使人们更容易访问和使用 AI 服务。

对话式 AI 平台通常提供一组工具和服务，使开发人员能够构建、训练和部署聊天机器人或虚拟助手。这些平台通常提供与现有消息应用程序（如 Facebook Messenger 或 Slack）的某种程度的集成。此外，许多对话式 AI 平台提供 API，使开发人员能够将其聊天机器人或虚拟助手集成到其他应用程序或服务中。

大多数对话式 AI 平台都基于机器学习技术，这使得聊天机器人或虚拟助手可以通过经验随着时间的推移提高其性能。一些流行的对话式 AI 平台包括 Amazon Lex、Google Dialogflow、IBM Watson Assistant 和 Microsoft Bot Framework。

什么是 Google 的 AI 平台？

Google 的 AI 平台是一套全面的工具和服务，使开发人员能够构建、训练和部署机器学习模型。它包括硬件和软件组件，以及各种基于云的服务。

什么是最佳 AI 平台？

一些流行的 AI 平台包括 Google Cloud Platform (GCP)、Amazon Web Services (AWS)、IBM Watson 和 Microsoft Azure。希望利用开源社区的创新、安全性和支持的从业人员和组织选择 Anaconda，这使他们能够使用 Python 构建和部署解决方案。这些平台中的每一个都提供不同的功能和服务集，因此选择最适合您组织需求的平台非常重要。

什么是 Microsoft 的 AI 平台？

Microsoft 的 AI 平台是一套全面的工具和服务，使开发人员能够构建智能应用程序。它包括 Azure 机器学习，使开发人员能够构建、训练和部署机器学习模型。

如何使用 AI 平台？

AI 平台可用于构建各种应用程序，包括聊天机器人、虚拟助手、推荐引擎、预测性维护系统和欺诈检测解决方案。这些应用程序中的许多应用程序都由机器学习算法驱动，这些算法从数据中学习并随着时间的推移而改进。

释放您的创新

设想一个数据科学团队可以快速迭代机器学习模型，定期将项目大规模推向生产，并具有完全可重复性的世界。这将如何影响您的业务？

Anaconda 使数据科学和机器学习从业人员能够将他们可以创建的任何内容一键部署到类似生产的环境中，以构建世界一流的机器学习和 AI。了解为什么 Anaconda 是世界上最受欢迎的开发和部署安全 Python 解决方案的平台，速度更快。

面向开源数据科学和 ML 的 AI 平台的权威指南

目录

引言

AI 平台、数据科学和开源

各行业的 AI 用例

AI 平台中需要关注的 7 项能力

向您的 AI 平台提供商提出的问题

Anaconda 的方法

引言

在本指南中，我们将介绍面向开源数据科学和机器学习的 AI 平台。

AI 平台、数据科学和开源

让我们从基础知识开始，为那些正在学习 AI 平台、机器学习和深度学习的人提供信息，同时也为我们将在本指南中思考工具和技术的方式奠定基础。

什么是 AI 平台？

如何使用 AI 平台？

选择 1：购买端到端 AI 平台

选择 2：构建您自己的 AI 平台

选择 3：开源软件

开源在数据科学和机器学习中的优势

为什么有如此多的 AI 解决方案？

各行业的 AI 用例

探索这些进步在当今行业中的具体应用示例。

银行业

电子商务

能源

金融

政府部门

医疗保健

保险

制造业

零售

AI 平台中需要关注的 7 项能力

AI 的成功归结于组织大规模构建机器学习模型并快速部署它们的能力。这些是在您的 AI 平台中寻找的关键功能，以确保您可以将更多模型更快地投入生产。

1. 自动化

2. IT 支持和治理

3. 规模

4. 安全

5. 支持

6. 开源工具

7. 开源贡献

向您的 AI 平台提供商提出的问题

围绕 IT 支持和治理、安全性、开源等问题询问潜在的技术提供商这些问题。

自动化

IT 支持和治理

规模

安全

支持

开源工具

开源贡献

Anaconda：安全、集中的 Python 解决方案

借助 Anaconda，您的数据科学家可以专注于进行数据科学研究，而不是在 DevOps、软件工程和 IT 任务中苦苦挣扎。一个平台提供了他们连接、共享和部署项目所需的所有工具。

常见问题解答

释放您的创新