这是一篇构建可最大化数据科学投资回报率的关键 MLOps 功能的实用指南。作者Josh Poduska,是 Domino数据实验室的首席数据科学家。

照片由 Ramón Salinero 在Unsplash上拍摄

我很幸运能与一些最成熟的全球公司合作开展他们的 AI/ML 计划。这些公司包括财富 500 强中的许多家喻户晓的公司,来自保险、制药和制造业等不同行业。每个公司的工资单上都有数十到数千名数据科学家。虽然他们在 AI 和 ML 方面进行了大量投资,但在 MLOps 方面却表现出惊人的广泛成熟度。在这篇文章中,我花一点时间来看看我从与这些公司合作中学到的东西,并分享他们 MLOps 旅程中出现的共同主题。我这样做的目标是提供一个框架,让高管和领导者可以衡量他们迈向卓越人工智能之旅的进度。

定义 MLOps

根据我的经验,MLOps 的定义取决于受众。对于技术从业者,我会说,“MLOps 是特定于数据科学生命周期的 DevOps 任务的自动化。” 对于关心跨组织规模的高管,我会首先使用术语企业 MLOps,然后我会说,“企业 MLOps 是一组技术和最佳实践,可简化数据科学模型的管理、开发、部署和维护在一个多元化的企业中的规模化。”

通过这种方式,MLOps 加快了一些领导者所说的“模型速度”,即公司生产模型的速度,同时确保模型安全性、安全性和准确性的最高标准。

将技术能力与商业价值联系起来

查看这些公司采用的技术 MLOps 功能时,有一些共同的主题。他们自然而然地分组并表现出向高级成熟的进展。我将使用成熟度曲线来帮助指导对这些概念的讨论。沿着 x 轴将是几组 MLOps 功能。沿着 y 轴将是公司从每个分组中获得的商业价值。

最成熟的组织会根据对业务价值的有根据的评估优先考虑添加新的 MLOps 功能。他们的北极星是优化整个 ML/AI 投资的投资回报率。为了给每个价值陈述增加质感,我将分享分析领导者的直接引语。听到他们用语言表达他们看到的采用 MLOps 功能的价值是很有趣的。

加速研究

访问数据、访问数据科学家日常使用的工具和 IDE 以及访问硬件是第一组功能。为了扩展数据科学研究,软件环境必须基于 Docker 等容器技术。并且这些组件中的每一个都必须以 IT 非大量参与的方式实现自助服务。如果数据科学家必须填写票证、发送电子邮件或扮演 Linux 管理员的角色才能访问其中的任何内容,那么我们就偏离了轨道。

来自这种功能组合的商业价值是加速研究或更快地将数据转化为洞察力。在 MLOps 的这个初始阶段取得成功后,一位 IT 领导者这样说。

“以前,了解和启动基础设施然后开始工作可能需要两到三周的时间。从几周到只需单击一个按钮。”

— 制药数据平台总监

高效部署

在下一组普遍采用的功能中,我们可以安排作业、管理实验细节,并拥有某种类型的自动化部署流程,例如 CI/CD 管道。这样可以高效地部署报告、应用程序、模型和其他资产。当你到达这个成熟阶段时,一位分析型领导者会为它的外观增添色彩。

“当我们构建模型时,我们现在可以发布应用程序......我团队中的任何人都可以在不到一周的时间内完成,有些人可以在几个小时内完成。”

— 决策科学高级总监,软件服务

先进的人工智能解决方案

在下一个成熟阶段,公司通常会寻求构建一个堆栈,以创建现代、复杂的分析解决方案。这种复杂性的提高来自更大的数据规模(分布式框架)、数据中的相互关系(管道和功能服务)以及复杂的类似 AI 的解决方案(深度网络)。此外,我们超越了基本的模型托管,并考虑大规模托管和托管具有更复杂推理机制的模型。

达到这一级别的 MLOps 成熟度代表了两个重要方面的重要里程碑。首先,能够达到这一水平的组织可以比竞争对手更快地扩展高级人工智能解决方案。这些组织是推动其行业挑战旧规范并创造新收入来源的颠覆者。例如,保险公司正在重新思考人工智能如何改变客户的理赔流程,制药公司正在将人工智能与生物标志物联系起来,为患者定制治疗方案。其次,处于 MLOps 成熟阶段的公司可以吸引和留住顶尖的分析人才,这是当今竞争激烈的人才市场的一个重要点。这两个好处体现在以下引文中。

“我们当然正在实施更精确的模型,甚至是我们以前无法通过更复杂的工作流程实现的模型。”

— FinServ 首席顾问

“如果我们没有首先投资 [MLOps],我根本无法组建团队,因为如果不向他们提供最先进的数据,就无法聘请高技能的数据科学家-艺术工作环境。”

— 曹,保险

模型安全网

在我们达到 MLOps 投资的价值拐点之前,还需要添加一项功能。如今,大多数公司都了解监控其生产模型以提供针对模型风险的安全网的重要性。正如一位领导人所说,

“数据漂移会对预测产生重大影响,最终对我们的业务产生影响。”

— 机器学习主管,保险

拐点

实现其 AI 战略目标的公司不会孤立地实施这四组功能。他们认为它们是统一 IT 框架的一部分。对于这些公司,他们的 MLOps 功能遵循连贯的策略,从而使 IT 可以在没有通常的英雄主义的情况下进行管理。

此外,他们非常重视数据科学家的角色。他们将数据科学家视为他们的客户。这可能包括统计分析师、量化分析师、精算师、临床程序员等。他们的想法是,他们不是从不同的开源 MLOps 技术中获取零碎的东西,而是将它们放在一个保护伞或平台下,将这些功能基于一套数据科学优先的原则。这种以数据科学为先的思维方式体现在几个微妙但重要的方面,从跟踪元数据的方式到自动化模型再训练的方式。

处于这个拐点右侧的公司是在整个企业中成功扩展 AI 和 ML 的公司。

标准化、协作、精简、板载

超越拐点的第一组功能采用容器的概念,并将其演变成一个数据科学容器管理系统,专为数据科学家的工作和协作方式而构建。这包括管理、共享和版本控制。它还使数据科学家可以轻松修改和构建容器。此外,它包括一个可搜索的知识库,可以在其中标记、存储和索引工作的所有元数据,以便发现和轻松协作,从而减少浪费的时间和更快的项目启动。该组还包括一个可重复性引擎,您的工作的面包屑轨迹就在您面前,很容易为审计员和监管机构验证模型谱系,并且只需单击一个按钮即可重新创建过去的工作。我还在这个组中包含了一个模型注册表。

与我合作的大多数大型企业的业务线、IT 部门、运营组织、研究团队和集中的卓越中心都有数据科学团队。在这种多元化团队中对 MLOps 最佳实践进行标准化会产生强大的协作,从而实现规模化。谈到这个价值,一位领导人指出,

“[成熟的 MLOps 能够实现] 可重复性和发现。然而,真正的知识加速是通过在平台上发现他人的研究来实现的。通过简单的关键字搜索,科学家可以找到其他相关研究或主题专家。”

— 生命科学工程与数据科学高级总监

最佳模型健康和风险规避

在通过专注于统一的、最佳实践、以数据科学为中心的 MLOps 方法实现价值飞跃之后,更先进的组织在模型风险和模型健康方面实现了闭环。他们通过与之前采用的数据和研究能力相结合的监测来做到这一点。

当模型出错或数据漂移时,自动警报会触发补救工作。模型验证也被集成,提供公司内部检查或监管框架授权。这可能包括偏见检查、同行代码审查、模型卡创建或可解释性分析。关键是任何查看模型的人都可以了解如何降低风险并了解模型是如何创建的。这可以优化模型健康并避免风险。

“[集成]模型监控为我们节省了之前花费在维护和调查上的大量时间,并使我们能够实时监控模型性能并将其与我们的预期进行比较。”

— 机器学习主管,保险

可重复的 AI 利润和安全的 AI

最后一组功能对集中 MLOps 功能的想法表示赞同。正是在这里,领导者终于拥有了一个像机器一样运行的 AI 程序,在保证所有数据和 IP 安全的同时,输出可靠的可盈利、可产生 ROI 的模型流。

这些概念中的第一个是项目管理。必须根据数据科学家的工作方式构建工作流程,以便他们的研究能够以流畅的协作方式进行。项目流经熟悉的阶段并具有逻辑检查点。该项目成为数据科学工作的记录系统。

所有这些都需要在一个集中的平台上进行,这样 IT 才能确保安全、管理用户和监控成本。合作者、领导者、主题专家、验证者、数据工程师、云开发人员和分析师都可以加入项目工作,同时让平台管理安全问题。

有了这些结构,您的数据科学团队就会成为创收机器。我什至见过一些公司为其数据科学团队设定了收入目标。

“[我们的] 平台是我们现代数据科学环境的核心,它帮助我们最大限度地提高数据科学团队的效率、生产力和产出,帮助我们推动创新以支持客户的使命。”

— 制造总监兼首席数据与分析官

自我评估

考虑您自己的 MLOps 旅程并评估您在成熟度曲线上的位置。制定计划以填补战略中的空白。请记住,超越价值拐点的关键是以数据科学为中心的方式紧密集成所有功能。远见和计划是必需的,否则您最终会得到一大堆抑制规模而不是加速规模的特性和功能。做到这一点的公司将在他们的 AI/ML 投资中看到可观的回报。

 

 
 
 
 
 
 
 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除