开源数据科学和机器学习的 AI 平台终极指南

探索各行各业的顶级开源工具和用例。采取战略行动,赋能从业人员和团队构建、部署和维护安全的 AI 解决方案。



经审查和维护

Joseph Currenti,Anaconda 技术帐户管理和解决方案架构高级经理
Chris Styduhar,Anaconda 产品管理总监(企业)
Nanette George,Anaconda 产品营销经理

人工智能(AI)无疑正在迅速改变我们已知的生活。领先的科技公司正在大力投资,谷歌首席执行官 Sundar Pichai 已将 AI 的影响力比作电力和火。已经采用 AI 来改进产品和服务的组织正在看到其投资的显著财务回报。我们只是开始看到 AI 的承诺变为现实。

然而,对于许多组织来说,实现 AI 的业务价值仍然是一个难以捉摸的目标。工具在不断变化,用例分散且散布在整个企业中,将有用的 AI 部署到生产环境中极其复杂。想要应用机器学习和深度学习来解决业务问题的 数据科学和工程团队面临着各种平台、库和软件的混乱局面。

评估和决定如何应用最新的工具和技术来开发、部署和维护高性能模型需要人员之间的跨职能协作,对技术的战略投资以及流程的持续校准。

我们创建了这份指南作为 AI 平台、常见用例以及评估 AI 平台时需要考虑的因素的便捷参考。如果您觉得这份指南有用,请将其收藏并与同事分享。

目录

简介

在本指南中,我们将介绍用于开源数据科学和机器学习的 AI 平台。

AI 平台、数据科学和开源

让我们从基础开始。

按行业划分的 AI 用例

服务和产品开发是常见的。

AI 平台中需要寻找的 7 种功能

AI 的成功取决于组织大规模构建机器学习模型并快速将其部署的能力。

向 AI 平台提供商提出的问题

将此问题清单带到与潜在 AI 平台提供商的对话中。

Anaconda 的方法

Python 的安全、集中式解决方案

简介

在本指南中,我们将介绍用于开源数据科学和机器学习的 AI 平台。


我们将定义和考虑可以促进您开发和部署数据科学和机器学习算法、模型和系统的 AI 平台的优缺点。我们将探讨企业组织中的常见用例以及您在寻求大规模利用 AI 力量时可用的开源工具。最后,我们将分享考虑 AI 平台时的最佳实践,包括向潜在技术提供商提出的问题。

AI 平台、数据科学和开源

让我们从基础开始,为那些正在了解 AI 平台、机器学习和深度学习的人提供信息,并为我们将在本指南中讨论的工具和技术奠定基础。


什么是 AI 平台?

人工智能 (AI) 平台是一套集成的技术,使人们能够开发、测试、部署和更新机器学习 (ML) 和深度学习模型。AI 应用了各种工具和技术,使机器能够分析数据、做出预测并比人工更快、更准确地采取行动。

企业 AI 平台使组织能够大规模构建和维护 AI 应用程序。AI 平台可以

  1. 集中数据分析和数据科学协作
  2. 简化 ML 开发和生产工作流程,这有时被称为 ML 运维或 MLOps
  3. 促进数据科学和工程团队之间的协作
  4. 自动化开发 AI 系统过程中涉及的一些任务
  5. 监控生产环境中的 AI 模型和系统

如何使用 AI 平台?

有很多方法可以为数据科学和工程从业人员准备 AI 平台。您的方法将根据您的组织的财务资源、团队的计算和数据处理基础设施以及团队的专业知识而有所不同。总的来说,在为团队创建构建和部署 AI 的协作环境时,您有三个选择

选择 1:购买端到端 AI 平台

有几家大公司主导着端到端 AI 平台市场。谷歌云平台 (GCP)、微软 Azure 和亚马逊网络服务 (AWS) 都是该领域的领导者,为寻求将 AI 实施到运营中的组织提供端到端解决方案和工具,例如 AWS Sagemaker。这可能是一个昂贵的选择,可能会将您锁定在仅使用某些工具或技术,因此仔细评估 AI 平台以了解它们提供的特定价值非常重要。

每个平台都有自己的优势和劣势,因此选择适合您的特定用例并能与您组织中已有的其他技术无缝集成的平台非常重要。

优点

您可以快速开始并使用具有企业级支持的工具。工具和软件会定期更新以提高可靠性、性能和安全性。

挑战

工具可能未针对您的特定用例配置,这将需要在开始时进行更多工程支持方面的规划。随着项目的发展和您沿途重新调整资源,您之前选择的工具可能无法支持新的需求。

选择 2:构建自己的 AI 平台

许多企业组织选择构建自己的 AI 平台。选择构建自己的 AI 平台通常取决于您的项目领导者是否希望组织构建和拥有该 AI 技术堆栈的元素。

这就是颠覆者 Uber 和 Netflix 所做的事情;他们通过将自己的开源工具、专有模型以及云基础设施或计算资源的企业提供商结合在一起,构建了自己的 MLOps 和 AI 平台。这些公司通过利用数据科学、开源工具和专有算法来颠覆传统行业,为 AI 成功树立了标准。

优点

这种方法可以让您和您的团队更好地控制工作流程、开发流程和部署策略。它还使您能够在业务需求随时间变化时快速做出响应。

挑战

您将在开始时投入更多的时间和费用来开发自己的平台和支持功能。您还将负责维护系统的持续费用。

选择 3:开源软件

开源软件是构建、部署和维护 AI 应用程序的绝佳选择。它使您能够为您的特定用例选择最佳工具,并利用为开源工具、库和框架做出贡献的从业人员群体的强大力量和创新能力。

Anaconda 是数据科学家中的热门选择,因为它允许他们构建环境,在这些环境中他们可以导入和访问可用于进行数据科学的最佳开源工具。它是一个 Python 本地应用程序,拥有 3000 万用户,他们为开源数据科学软件的创新、安全性 and 技术做出贡献。

Anaconda 可以成为 AI 平台的重要组成部分,它专门针对那些重视开源机会的数据科学和 Python 用户。IT 管理员喜欢 Anaconda,因为他们可以使用它来集中和保护数据科学团队的工作,这些团队推动机器学习模型和系统的开发和生产。微软和 Snowflake 已将 Anaconda 嵌入到他们的数据科学和 ML 产品中,以简化数据科学探索和生产部署的加速。

优点

这种方法使您的从业人员能够访问最适合您的用例的工具。用户可以访问可以加速开发的存储库、项目和代码。可以使用开源生态系统中群体的强大力量,更早地识别和验证开源工具和包中的安全漏洞。

挑战

您将需要一种开源思维,这需要深入的协作。您还需要一支才华横溢的团队,他们对要解决的问题有清晰的理解,并能够获得持续的培训 and 技能提升的机会。

开源在数据科学和机器学习中的优势

使用免费的开源工具和库,您可以快速轻松地创建强大的 AI 解决方案。使用开源软件有很多好处,包括与他人协作的能力、为开源社区做出贡献的能力以及在最小限制下分发软件的能力,具体取决于软件许可证。

Python 是目前最流行的开源软件工具,可用于数据科学和 AI。它是一种用途广泛的语言,可用于数据科学、AI、机器学习和深度学习。Python 如此通用是因为它拥有一个充满活力且强大的开放科学生态系统,拥有众多开发人员社区,他们创建了库和工具,使 Python 更易于使用。R 是另一种专门为统计分析和数据可视化而设计的语言。它也广泛应用于机器学习和深度学习。

任何人都可以使用这些工具,无需支付许可证费用。这使得它们可以供各种人群使用,包括可能负担不起专有商业工具的学生和研究人员。

开源软件在数据科学和机器学习中的优势包括

  • 低进入门槛:低成本或免费获得一些最好的工具
  • 可靠性、安全性、速度:社区的力量
  • 访问开源工具和人才:使用这些工具的社区
  • 数据科学和 ML 的数据和模型库
  • 数据科学和 ML 开源教育

为什么会有如此多的 AI 解决方案?

AI 近期爆炸式增长,正如稳定扩散和 ChatGPT 等生成式 AI 的进步所证明的那样,这在很大程度上要归功于一种称为深度学习的机器学习形式。例如,自动驾驶汽车和智能助手的进步是由于深度学习模型的显著改进。

深度学习本质上是旧概念的新术语:神经网络,它是对数字数组执行的数学运算集合。但是,深度学习技术生成的模型比传统神经网络更复杂或“更深”,并且还涉及大量数据。

在过去几年中,海量数据、深度神经网络的开源进步以及强大的硬件和计算或处理速度的结合,在图像分类、语音转录和自动驾驶等多个领域取得了突破。这些进步带来了巨大的经济影响。

尝试部署模型的数据科学家发现自己要扮演多个角色:数据科学家、软件开发人员、IT 管理员、安全人员。他们努力构建和封装模型,提供模型,路由流量,处理负载均衡,并确保所有这些操作都安全。但是,为了通过 AI 实现商业价值,模型必须部署。而模型部署和模型管理是难以完成的任务,更不用说自动化了。

开源社区才刚刚开始创建工具来缓解模型开发、训练和部署中的这一挑战。大部分工作是由大型公司的研究人员和像 Uber 和 Netflix 这样的初创企业转变为企业的团队完成的。

首先,Uber 的数据科学家只能在他们的笔记本电脑上训练他们的模型,这阻碍了他们将模型训练扩展到构建强大模型所需的数据量和计算周期。该团队没有存储模型版本的流程,这意味着数据科学家浪费了宝贵的时间重新创建同事的工作。因此,Uber 构建了并继续发展自己的机器学习操作 (MLOps) 平台 Michelangelo

虽然 Uber 和其他公司已经应用机器学习来创新产品,但他们并没有从一个将模型部署到生产中的标准流程开始,从而严重限制了他们工作的潜在商业价值。Uber 的团队报告说,他们没有建立将模型部署到生产环境中的既定路径——在大多数情况下,相关的工程团队必须为该项目创建定制的提供服务容器。

为了专注于构建更好的模型,谷歌、Uber、Facebook 和其他领先科技公司的​​数据科学家构建了自己的 AI 平台。这些平台自动化了构建、训练和部署大规模 AI 所需的支撑基础设施——被称为粘合代码。

按行业划分的 AI 用例

探索这些进步在当今行业中应用的具体示例。


根据麦肯锡关于 2022 年 AI 现状的调查和报告,AI 的采用和投资正在上升,而应用 AI 的组织正在获得可观的回报。常见的 AI 使用案例包括服务和产品开发,而且不断有其他 AI 功能添加到列表中。

麦肯锡关于 2022 年 AI 现状的调查包括来自所有地理区域、行业、组织规模和专业的 1492 名受访者。半数(744)调查参与者的组织已经采用 AI,这些受访者提供了他们使用 AI 的详细信息。数据根据每个国家对全球 GDP 的贡献进行加权。

此外,虽然 AI 可能代表着您组织的巨大机遇,但请记住,它也代表着您竞争对手的巨大机遇——包括您今天可能没有竞争,但很快就会竞争的组织,因为他们在应用 AI 方面取得了进步。信息很明确:组织必须立即采用 AI,否则将面临落后的风险。

国际数据公司 (IDC) 预测,到 2026 年,全球 AI 市场规模将增长至 9000 亿美元。IDC 的报告预测复合年增长率为 18.6%。深度学习在图像分类、语音识别、手写文字转录和文本到语音转换等领域取得了惊人的突破。

让我们探索一些这些进步在当今行业中应用的具体示例。

银行

银行多年来一直在利用 AI 创造商业价值,从而改变客户与他们的互动方式,尤其是在远程情况下。对于一些消费者来说,使用移动银行应用程序是他们与 AI 的首次互动:银行使用计算机视觉来检测移动支票存款中的支票欺诈,消费者拍摄支票正反两面的照片以将其资金存入他们的账户。

麦肯锡 2021 年 5 月发布的研究估计全球银行业的 AI 技术每年可以创造高达 1 万亿美元的额外价值,考虑到 AI 如何降低成本、减少错误并为银行机构创造新的机会。

以下是在银行业常见的 AI 使用案例

  • **欺诈检测:**机器学习最常见的应用是欺诈检测。欺诈检测算法可用于在几秒钟内解析来自数千笔交易记录的多个数据点,例如持卡人身份数据、发卡地点、交易发生时间、交易地点和交易金额。

    为了实施欺诈检测模型,数据集中应该已经存在多个准确标记的欺诈实例,以便对模型进行适当的训练。一旦模型在交易数据中检测到异常,就可以编程通知系统,以便在模型识别出可疑交易时立即提醒欺诈检测服务。

    欺诈检测是一种异常检测算法。这些算法也可以应用于公司其他领域的数据集,以服务于不同的目的,例如网络入侵检测。这就是为什么一些公司发现投资于企业数据科学平台比购买现成的模型或针对性的分析解决方案更有价值的原因之一。
  • **信用评分:**银行也依靠 AI 来建立准确的信用评分。通过实施信用评分算法,金融机构不必依赖于美国三大评分机构提供的通用评分。许多贷款机构认识到开发定制信用评分模型的益处,这些模型利用机构自己的客户活动数据,而不是美国三大评分机构提供的通用评分,从而更好地预测授信的风险或机会。通过这样做,他们可以减少因贷款冲销、利息收入延迟和试图收取逾期付款的服务成本而产生的逾期成本。客户可以实时重新评估。机器学习(预测)算法用于在新的数据涌入时更新这些评分,确保他们使用的是最新信息。它依赖于过去贷款的数据,前提是有足够来自良好和不良贷款的数据来有效地训练它们。
  • **信用风险分析:**这些预测算法也可以在宏观层面上用于评估风险和预测市场走势。金融机构使用信用风险分析模型来确定潜在借款人违约的可能性。该模型提供有关借款人在任何特定时间信用风险水平的信息。如果贷方未能提前检测到信用风险,就会使其面临违约和资金损失的风险。贷方依赖于信用风险分析模型提供的验证来做出关键的贷款决策,即是否向借款人提供信贷以及收取的利息。

其他常见的银行 AI 使用案例包括

  • 账户风险分析
  • 信用额度调整审批
  • 客户细分
  • 个性化优惠
  • 战略定价模型

电子商务

亚马逊是最早向消费者介绍电子商务中 AI 的公司之一,但当时它更像是魔法,来自一家新的在线图书销售商。2003 年,亚马逊的研究团队发表了一篇关于他们使用称为协同过滤的推荐算法的论文,以预测客户的偏好,最初是使用其他购物者的偏好。

亚马逊的 AI 团队了解到,在产品层面上分析购买历史比在客户层面上获得的结果能提供更好的推荐。这是一项开创性的工作,从那以后,电子商务公司显著扩展了他们对 AI 的使用。

电子商务中常见的 AI 使用案例包括

  • **产品推荐:**预测分析为高级推荐系统提供动力,这些系统分析网站和应用程序访问者的历史购买记录以推荐更多产品。运行这些系统的模型基于使用相同类型产品的类似用户的选择或提供类似的客户评分。
  • **产品运输模型:**预测分析也以预期运输模型的形式使用。他们预测客户最有可能购买的产品和模式,并确保这些商品存放在最近的仓库中。
  • **价格优化:**电子商务还使用 AI 进行价格优化,对热门商品提供折扣,并在不太受欢迎的商品上赚取利润。欺诈检测是另一个领域,通过使用算法来检测欺诈卖家或欺诈性购买。

其他常见的电子商务 AI 使用案例包括

  • A/B 测试
  • 聊天机器人和虚拟助手
  • 流失预测
  • 客户再营销
  • 需求预测
  • 动态定价
  • 欺诈检测
  • 一线员工排班和赋能
  • 图像处理
  • 个性化
  • 路线优化
  • 销售流程改进
  • 网站搜索引擎

能源

能源管理组织正在越来越多地应用人工智能;根据 2022 年 8 月发布的研究与市场研究报告,全球能源人工智能市场预计将在 2022 年至 2030 年期间以 21% 的速度增长。随着全球能源生产和消费的增长,能源人工智能用例也在不断增加,组织正在利用人工智能来提高能源效率、电网稳定性和智能能源解决方案。

能源领域中常见的人工智能用例包括

  • 异常检测
  • 需求预测
  • 数字孪生(模拟)
  • 高效储能
  • 前端工程设计 (FEED) 自动化
  • 库存管理
  • 物流优化
  • 市场定价
  • 新材料发现
  • 预测性维护
  • 生产优化
  • 安全
  • 智能电网和微电网
  • 存储效率
  • 用量预测

金融

金融机构一直在将机器学习应用于挖掘洞察力、更快地做出关键决策以及自动化与公共市场交易相关的海量手动任务。

交易员对人工智能持乐观态度。在摩根大通公司 2023 年 2 月发布的一项调查中,交易员分享了他们对人工智能和机器学习将在未来几年对金融市场产生最大影响的看法。在 835 名受访者中,超过半数是机构和专业交易员,他们预计人工智能将在未来三年内对交易产生重大影响。这一比例高于 2022 年的约 25%。

金融领域中常见的人工智能用例包括

  • 高级分析:对冲基金已在机器学习和其他高级分析技术方面投入巨资,因为它们一直在寻找新的信息来源以做出更好的交易决策。强大的量化模型是对冲业务的核心支柱,基金成为深度学习的早期采用者也就不足为奇了。

由于资金的巨大利益,对冲基金越来越多地转向“替代数据”以生成市场趋势的前瞻性指标。例如,他们可以将卫星图像输入到 GPU 加速的神经网络中,这些网络可以估计从港口船只数量到田间作物生长量的一切信息。通过使用深度学习技术生成更高质量的输入,他们可以提高现有量化模型的输出。

  • 合同处理:自然语言处理 (NLP) 用于金融行业处理合同。通过将 NLP 模型应用于阅读和解析合同,可以显着减少冗余劳动时间。例如,摩根大通开发了一种名为 COIN(合同智能)的文本挖掘解决方案。COIN 通过解析文档以查找特定单词和短语来帮助分析商业贷款合同,每年为公司节省 360,000 小时。
  • 客户沟通:将 NLP 模型应用于社交媒体、电话记录和客户服务聊天平台上的客户沟通,使金融机构能够对客户反馈进行分类并衡量情绪,从而更好地了解他们的客户。人工智能提供了分析评论以识别表示意图的情绪、识别模式以建议改进领域或在问题影响大量客户之前将其标记的能力。

金融领域中其他常见的人工智能用例包括

  • 回报率分析
  • 投资组合管理
  • 市场和交易风险
  • 市场价格模拟

政府

公共机构在私营部门组织方面具有优势:大量准确的数据,以及利用这些数据为公民提供更好服务的授权。政府机构在应用人工智能方面面临的主要挑战是确保数据的安全。某些数据受法律保护,例如个人健康和财务信息。各国和各州必须确保基础设施和军事数据免受与大规模部署的人工智能解决方案相关的暴露和风险。

根据 Market Connections 和 Science Applications International Corporation (SAIC) 在 2023 年 1 月发布的一份报告中对商业和 IT 领导者的调查,多云战略和软件开发过程 (DevSecOps) 中的安全性和人工智能都是当今政府面临的挑战

政府领域中常见的人工智能用例包括

  • 应急响应:将来自多个来源的数据整合起来的能力,为地方政府和当局的应急响应能力提供了显着的优势。实时分析有助于在压力情况下支持立即决策。对多个通信渠道的控制、使用可以识别潜在威胁的智能工具以及发送警报的能力,使地方当局有机会向公民发出警报并告知他们有关进一步行动的建议。

政府领域中其他常见用例包括

  • 高危人群支持
  • 福利管理
  • 气候分析
  • 犯罪侦查
  • 数字化转型
  • 经济分析
  • 设备监控
  • 欺诈检测
  • 健康预测
  • 军事支持
  • 人员准备
  • 安全威胁
  • 服务现代化
  • 贸易监管
  • 武器创新

医疗保健

医疗保健是服务提供的一个高度管制领域,人工智能应用程序的引入彻底改变了这一领域,这些应用程序可以比人类更快地识别医疗问题,而且通常更准确。人工智能辅助技术正在使改进诊断、描述性、处方性和预测性分析成为可能,从而预测个人的诊断结果。

根据哈佛大学和麦肯锡公司 2023 年 1 月发表的一篇论文,人工智能的采用可能会带来 5% 到 10% 的节省,每年可节省 2000 亿美元至 3600 亿美元。这些估计考虑了未来五年内将可用的当前技术的人工智能用例。

医疗保健领域中常见的人工智能用例包括

  • 疾病检测和诊断:视觉数据处理帮助放射科医生更快地阅读图像以进行诊断,例如肿瘤检测。近年来,放射科医生的工作量大幅增加。一些研究发现,平均放射科医生必须每 3-4 秒解释一张图像才能满足需求。

    研究人员已经开发出经过先前捕获的放射影像训练的深度学习算法,可以识别肺、乳腺、大脑和其他区域肿瘤的早期发展。可以训练算法识别放射影像数据中的复杂模式。

    休斯敦卫理公会研究所开发的一种早期乳腺癌检测工具,可以以 99% 的准确率解释乳腺 X 光片,并减少活检的必要性。它还提供比人类快 30 倍的诊断信息。这可以带来更好的患者护理,并帮助放射科医生更好地完成工作。

    人工智能还用于皮肤癌诊断。一些研究人员使用卷积神经网络 (CNN) 开发了用于皮肤癌检测的机器学习模型,使用 TensorFlow、scikit-learn、Keras 和其他开源工具,其准确率达到 87% 到 95%。相比之下,皮肤科医师在检测黑色素瘤的准确率为 65% 到 85%。除了皮肤癌诊断外,研究人员还在使用 CNN 开发用于诊断肺结核、心脏病、阿尔茨海默病和其他疾病的工具。

医疗保健领域中其他常见用例包括

  • 护理提供
  • 慢性病管理
  • 临床决策支持
  • 数据管理
  • 数字病理学
  • 疾病预测
  • 疾病研究和治疗
  • 药物开发
  • 紧急派遣优化
  • 基因医学
  • 改善医疗保健公平
  • 医学影像分析
  • 患者自我保健和健康
  • 远程医疗能力

保险

保险行业有着悠久的量化传统;然而,这个高度管制、风险规避的领域并没有像其姊妹行业银行业和金融业那样专注于数据科学和机器学习。然而,保险机构一直在从逐个系统地转变技术方法,转变为由业务线和部门主管领导的举措,这些主管与首席信息官 (CIO) 和首席技术官 (CTO) 合作。

德勤金融服务中心在其2023 年保险展望中,敦促保险机构将技术战略和投资重点放在客户细分、产品支持和增值服务方面区别于竞争对手。

保险领域中常见的人工智能用例包括

  • 承保评估:房屋屋顶的状况对于准确定价保险至关重要。传统上,许多保险公司依赖房主报告的屋顶年龄来评估屋顶状况,这种方法显然容易出错。但是,借助深度学习,保险公司可以使用房屋屋顶的照片来创建深度学习模型,从而提供更准确的屋顶质量表示。这使保险公司能够降低房屋保险风险。
  • 索赔处理:保险公司还使用图像分类技术,使保险理算员的工作更快、更准确。与其依赖保险理算员读取发生事故车辆的里程表,不如使用深度学习模型摄取里程表的照片并确定正确的读数。

同样重要的是要注意,这些公司并没有完全放弃现有模型而采用全新的方法。相反,他们利用新的 AI 技术来改进模型的输入。

保险领域中其他常见的人工智能用例包括

  • 个性化优惠
  • 战略定价模型
  • 客户细分
  • 财产分析

制造

多年来,制造业的领导者一直在应用机器学习来优化安全、产品质量和商品的大规模交付。在制造业中应用人工智能的机会似乎是无穷无尽的,因为该行业在交付产品方面严重依赖硬件和软件。

边缘人工智能依赖于现场传感器将数据传递到组织和分析数据的平台,是制造业中常见的用例。这也称为物联网或物联网。行业专家推崇另一种称为自适应人工智能的方法,认为它是克服云和边缘数据挑战的关键

制造业中顶级的人工智能用例集中在预测模型上,以预测与供应链、维护、物流和库存等领域的关键因素相关的预测模型。人工智能可以带来巨大的益处,对于制造商而言,这意味着更低的成本、更快的交付和更高的质量。

制造业中常见的人工智能用例包括

  • 质量控制:图像识别和异常检测是机器学习算法的类型,可以快速检测和消除有缺陷的零件,防止它们进入汽车制造工作流程。零件制造商可以在零件从装配线下来时捕捉到每个组件的图像,并自动将这些图像运行通过机器学习模型以识别任何缺陷。

    高精度异常检测算法可以检测到小至几分之一毫米的问题。预测分析可用于评估是否有缺陷的零件可以返工或需要报废。在此时消除或返工有缺陷的零件远比在后期发现并修复它们更便宜。它可以节省制造过程中更昂贵的缺陷,并降低昂贵召回的风险。它还有助于确保客户安全、满意度和留存率。
  • 供应链优化:在整个供应链中,分析模型被用来识别不同营销策略、销售价格、地点以及其他许多数据点的需求水平。最终,这种预测分析决定了不同设施所需的库存水平。数据科学家不断测试不同的场景,以确保理想的库存水平,提高品牌声誉,同时最大限度地减少不必要的持有成本。

    优化模型有助于指导库存从制造商到配送中心,最终到面向客户的门店的精确流动。机器学习正在帮助零部件和汽车制造商及其物流合作伙伴更有效率、更盈利地运营,同时提升客户体验和品牌声誉。

制造业中其他常见的 AI 应用场景包括

  • 数字孪生(模拟)
  • 边缘 AI
  • 能源管理
  • 生成式设计
  • 库存管理
  • 准时制物流
  • 市场分析
  • 预测性维护
  • 预测产量
  • 价格预测
  • 流程优化
  • 生产优化
  • 质量保证
  • 机器人技术
  • 根本原因分析

零售

近年来,零售业遭受了重创,新冠肺炎疫情迫使零售商关闭门店,并适应无接触式购物、服务和配送。能够快速适应的企业将零售提升到新的高度,为许多品牌提供了以客户为中心的优质服务,并加强了与客户的关系。

大型零售商 Target 和 Walmart 推出了免下车配送和在线购买店内取货 (BOPIS) 服务,一些零售商,如 Lowe’s Home Improvement,也迅速推出此类服务,以满足疫情导致门店关闭后客户的需求。然后是俄罗斯对乌克兰的战争,以及随之而来的供应链挑战,挤压了大小零售商的库存能力,从而影响了他们的盈利能力。

AI 为零售商提供了难以置信的机会,其中包括:更深入地了解他们的客户,以及个性化能力,以 吸引最有价值的客户

零售业中常见的 AI 应用场景包括

  • 定制服务:欧莱雅旗下的多亿美元护肤品牌 Olay 在 2016 年推出了一个名为“Skin Advisor”的应用程序,该应用程序使用神经网络,并 将销售转化率提高了一倍。潜在客户提交一张照片,模型会返回一个定制的皮肤评估,并建议客户购买相应的矫正产品。

    虽然这看起来像是一个新奇的产品,但它对财务产生了重大影响。由于该应用程序,平均购物篮规模(即客户一次购买的商品数量)提高了 40%,转化率也翻了一番。通过利用 AI,Olay 提供了个性化的购物体验,客户也通过购买更多产品做出了回应。

零售业中其他常见的 AI 应用场景包括

  • 客户细分
  • 需求预测
  • 配送调度和路线优化
  • 库存优化
  • 货架图创建
  • 产品推荐
  • 供应链优化
  • 人力资源调度和管理

AI 平台中需要寻找的 7 种功能

AI 的成功取决于组织大规模构建机器学习模型并快速部署它们的能力。这些是您在 AI 平台中寻找的关键能力,以确保您可以更快地将更多模型部署到生产环境中。


1. 自动化

自动化是加速整个数据科学生命周期规模和速度的关键因素。一旦团队识别出一个成功的流程、技术或框架,他们就可以将其自动化,并在必要时根据输出和结果的准确性重新校准自动化。

开发和部署模型的复杂性会阻碍迭代。但团队必须不断重新审视和更新模型,因为根据模型的预测,在模型部署和在现实生活中采取行动的点,都会发生地面实况或条件的变化。

寻找一个 AI 平台,该平台能够以战略性的方式应用自动化,使您的团队能够更轻松地加速经过验证的模型的自动化,并始终保持稳固的性能。它应该易于将针对您的用例的最新最佳工具集成到您的数据科学和机器学习环境中。

2. IT 使能和治理

利用机器学习的开源工具的强大功能,包括对整个 ML 管道的控制。IT 管理员必须能够根据工作或角色配置帐户,跟踪用户,并使实践者更容易共享和协作他们的项目。IT 组织需要完全控制其开源供应链,包括跟踪从包到源代码到部署日志的整个项目谱系。

这种方法使数据科学家能够控制模型谱系,并允许复制成功的模型。它允许 IT 管理员证明实践者正在使用批准的包,可以访问他们所需的计算资源,并且符合企业 IT 和安全策略或法规。

寻找一个 AI 平台,该平台可以使您的 IT 管理员能够控制和管理软件供应链,为他们提供管理用户访问和提供审计详细信息所需的工具。

3. 规模

ML 模型训练和生产中规模的重要性不可言喻。仅仅在笔记本电脑上使用部分数据构建和训练模型是不够的。数据科学家必须扩展其模型训练,以构建强大的模型,这意味着他们需要集中式工作流程,使他们能够设计和构建分析和机器学习模型,与其他实践者合作,并跟踪他们的实验和迭代。

对于 IT 和安全团队来说,规模需要合适的工具,将这些模型安全地部署到生产环境中,并确信他们可以快速识别和缓解安全风险。

由于 GPU 和 TPU 的出现,现在这种规模的模型训练在经济上是可行的。但是,部署这种规模的计算需要大量的支持基础设施。因此,今天的挑战不是在哪里找到计算能力,而是如何管理支持它的环境。

寻找一个 AI 平台,可以根据您的需要进行部署——在线或离线——并且可以处理您的组织在您扩展 AI 应用时对规模、用例和吞吐量的要求。

4. 安全

对于首席安全信息官 (CISO) 和 IT 管理员来说,保护开源软件供应链至关重要。数据科学家通常使用开源软件包来开发和测试机器学习模型,分析其准确性、可扩展性以及其他许多因素的结果。在这个过程中,他们经常直接将软件包下载到他们的笔记本电脑上并在那里运行它们。

这种情况使 IT 管理员处于劣势,因为公共来源会带来额外的风险,必须不断监控和缓解这些风险。

寻找一个 AI 平台,该平台的维护人员和作者是您团队将使用的工具和技术的专家,这些工具和技术将机器学习模型从构建阶段带到高性能的生产部署。优秀的 AI 平台将拥有经过验证的监控开源软件包和工具中的 CVE 的记录,使用自动化和人工管理,并结合开源社区报告的错误和反馈。

5. 支持

支持通常是企业买家最后寻找的功能之一,但它是任何 AI 平台的关键要素。尤其是在团队使用开源软件时,他们将需要可靠的错误报告和跟踪,有吸引力的培训资源以及持续支持。

寻找一个 AI 平台,该平台可以为您的团队提供所需的 support,从入职支持到学习资源,到您需要时的即时支持。确保构建和维护 AI 平台的组织优先考虑企业支持,并且能够大规模交付支持,即使是在面临重大数据泄露或 AI 应用带来的不利影响的处罚的监管严格的行业。

最好的 AI 平台将为您提供一个支持提供优先级矩阵,例如以下示例中的矩阵。

Anaconda 的支持优先级矩阵显示了它如何处理客户问题,根据受影响的用户、是否存在解决方法以及问题的紧急程度。

6. 开源工具

一个优秀的 AI 平台将拥有支持使用开源软件进行数据科学和机器学习的集成。寻找一个 AI 平台,该平台可以轻松访问诸如 Jupyter Notebook、Keras、Matplotlib、Scikit-learn 和 TensorFlow 之类的工具。

一些平台将允许您集中这些工具的工作流程,这意味着您的数据科学和 ML 从业人员可以协作、共享数据和比较模型,而您的 IT 管理员可以配置帐户、管理访问并确保安全。

寻找一个 AI 平台,该平台可以使您轻松访问开源工具和存储库。确保他们按版本、包和日期跟踪这些平台上的 CVE。最好的 AI 平台是由那些在开源社区中扎根的组织和团队构建和维护的,这些组织和团队通过贡献研究、资源和人才,来增加人才和研究的多样性,并增加可供数据科学和机器学习从业人员使用的创新技术的数量。

7. 开源贡献

寻找一个 AI 平台,该平台与开源社区及其贡献者保持密切联系。最好的 AI 平台将与开源社区紧密相连,以支持创新和强大的安全,由其团队和生态系统进行漏洞管理。当开源软件的作者受雇于运行您选择的 AI 平台的组织时,情况会更好。

请记住,一个组织可以有很多方法为开源社区做出贡献。一些组织通过创建集成或在其产品中嵌入对关键工具的访问来投资开源软件。其他组织通过分享对数据科学和机器学习从业人员易于访问的內容中的最佳实践来为开源做出贡献。

一些组织聘用开发人员关系 (DevRel) 团队,其成员是开源数据科学、软件开发和机器学习方面的专家,并在整个生态系统中合作创建内容,以帮助教育社区。

向 AI 平台提供商提出的问题

询问潜在的技术提供商有关 IT 使能和治理、安全、开源以及更多方面的这些问题。

自动化

1. 将开源编排工具集成到 AI 平台中需要什么?

IT 使能和治理

2. 描述用于跟踪数据谱系和监控数据质量的系统。您是否拥有用于管理数据目录、元数据和其他工件的工具?

3. 您如何保护数据以符合欧洲的 GDPR(通用数据保护条例)、CCPA(加州消费者隐私法)和其他隐私法规?

规模

4. 我们的数据科学家如何为实验和模型训练创建环境?描述步骤。

5. 使用您的平台,建立在线预测系统有多容易和高效?

6. 您提供什么样的硬件支持?该硬件的成本是多少?

安全

7. 该平台的访问控制是什么样的?描述管理员配置帐户或停用访问的步骤。

8. 您的平台如何跟踪日志记录、监控和警报?描述 IT 管理员的这些功能的流程。

9. 您的团队监控影响平台用户的常见漏洞和暴露 (CVE) 的深度是多少?

支持

10. 入职需要多少用户参与?

11. 是否提供持续的培训?用户在哪里访问培训,以及培训资源库的更新频率?

12. 描述在影响我们的客户或用户的紧急技术问题上与 Anaconda 支持团队联系的流程。您如何优先考虑停机和它们的影响?

开源工具

13. IT 管理员如何使用您的平台为数据科学家和工程师配置开源工具——例如 Jupyter Notebook、MLflow、Scikit-learn 或 TensorFlow?

14. 您的平台如何保护我们数据科学家使用的软件包?

开源贡献

15. 您是否为开源社区做出贡献?描述您的组织如何参与开源生态系统。

Anaconda:安全、集中式的 Python 解决方案

借助 Anaconda,您的数据科学家可以专注于用数据进行科学研究,而无需在 DevOps、软件工程和 IT 任务上浪费时间。一个平台提供他们连接、共享和部署项目所需的所有工具。

Anaconda 的平台可以轻松地自动执行您组织的 AI 管道,从笔记本电脑到训练集群再到生产集群。无论您的组织规模如何,Anaconda 都可以提供支持,从使用一台笔记本电脑的单个从业人员到数千台机器。Anaconda 自动执行了不可区分的繁重工作,即阻止组织快速大规模训练和部署模型的粘合代码。

借助 Anaconda,您的数据科学家可以专注于用数据进行科学研究,而无需在 DevOps、软件工程和 IT 任务上浪费时间。一个平台提供他们连接、共享和部署项目所需的所有工具。

从 IT 的角度来看,Anaconda 提供了自动化的 AI 管道。Anaconda 的云原生架构使扩展变得简单。安全官员可以确信,所有数据科学资产(包、项目和部署)都得到安全管理,并自动配置了适当的访问控制。

常见问题解答

什么是 AI 平台?

AI 平台是一种软件解决方案,使企业能够开发和部署 AI 驱动的应用程序。它通常包括一组面向数据科学家、开发人员和业务用户的工具和服务,以及用于部署 AI 模型的运行时环境。

一些流行的 AI 平台包括 Google Cloud Platform (GCP)、Amazon Web Services (AWS)、IBM Watson、Microsoft Azure 和 Anaconda。这些平台中的每一个都提供不同的功能和服务,因此选择最符合您组织需求的平台至关重要。

这个问题没有放之四海而皆准的答案,因为构建 AI 平台的最佳方法取决于项目的具体目标和要求。但是,有一些一般性技巧可以帮助您入门。

首先,明确了解您希望 AI 平台实现的目标非常重要。您希望它完成哪些具体任务或目标?一旦您对目标有了充分的了解,就可以开始研究哪些 AI 技术最适合您的需求。

同样重要的是要考虑如何部署和使用 AI 平台。它将部署在本地还是云端?它将由内部团队使用,还是向外部客户提供?这些因素将影响平台的架构以及您使用的技术。

最后,不要忘记考虑构建和维护 AI 平台的成本。根据项目的规模和复杂程度,这可能是一笔可观的支出。确保进行相应的预算,并记住平台的早期版本可能并不完美,因此不要害怕在继续开发过程中进行迭代和试验。

对话式 AI 平台是一种软件应用程序,使用户能够以自然的方式与 AI 代理交互,使用对话作为主要界面。对话式 AI 平台的目标是通过提供比传统文本或图形界面更友好的界面,使人们更容易访问和使用 AI 服务。

对话式 AI 平台通常提供一组工具和服务,允许开发人员构建、训练和部署聊天机器人或虚拟助手。这些平台通常提供一定程度的与现有消息应用程序的集成,例如 Facebook Messenger 或 Slack。此外,许多对话式 AI 平台提供 API,允许开发人员将他们的聊天机器人或虚拟助手集成到其他应用程序或服务中。

大多数对话式 AI 平台基于机器学习技术,允许聊天机器人或虚拟助手通过经验随着时间的推移来提高性能。一些流行的对话式 AI 平台包括 Amazon Lex、Google Dialogflow、IBM Watson Assistant 和 Microsoft Bot Framework。

Google 的 AI 平台是一套全面的工具和服务,使开发人员能够构建、训练和部署机器学习模型。它包括硬件和软件组件,以及各种基于云的服务。

一些流行的 AI 平台包括 Google Cloud Platform (GCP)、Amazon Web Services (AWS)、IBM Watson 和 Microsoft Azure。希望利用开源社区的创新、安全和支持的从业人员和组织选择 Anaconda,它允许他们使用 Python 构建和部署解决方案。这些平台中的每一个都提供不同的功能和服务,因此选择最符合您组织需求的平台至关重要。

微软的 AI 平台是一套全面的工具和服务,使开发人员能够构建智能应用程序。它包括 Azure 机器学习,允许开发人员构建、训练和部署机器学习模型。

AI 平台可用于构建各种应用程序,包括聊天机器人、虚拟助手、推荐引擎、预测性维护系统和欺诈检测解决方案。这些应用程序中的许多由从数据中学习并随着时间的推移改进的机器学习算法提供支持。

释放您的创新

想象一个数据科学团队可以快速迭代机器学习模型的世界,定期将项目推送到生产环境中,并以完整的可重复性进行大规模扩展。这将如何影响您的业务?

Anaconda 使数据科学和机器学习从业人员能够将他们可以创建的任何内容部署到类似生产的环境中,只需单击一下即可构建世界一流的机器学习和 AI。了解为什么 Anaconda 是全球最受欢迎的平台,可以更快地开发和部署安全的 Python 解决方案。