博士论文 | MIT 2025 | 从数据到模型，再回到数据：构建可预测且可靠的机器学习系统 774页

尽管机器学习系统在多个任务中展现出令人印象深刻的性能，但目前我们仍缺乏可扩展的方法来预测这些系统的成功表现、失败模式以及潜在偏差。这一现状限制了我们在合适的语境中部署这些系统的能力，也阻碍了我们构建能够在高风险环境下可靠运行的系统。

针对这一问题，本论文旨在提出用于构建可预测且可靠的机器学习系统的设计原则。我们的最终目标是让开发者能够明确知道模型何时会发挥作用、何时可能失败，并理解其背后的原因。为实现这一目标，本论文结合了大规模实证实验与理论分析，试图从训练数据（及其收集方式）、学习算法到实际部署，对整个机器学习“流水线”形成精确理解。若这一理解得以完善，我们将能够像建造楼宇或飞机那样构建机器学习系统——具备安全性、可扩展性，并深刻掌握其底层原理。

本论文聚焦于该流程中的四项关键设计决策：模型部署（第一部分）、数据集构建（第二部分）、数据采集（第三部分）以及算法选择（第四部分）。针对每一项设计，我们通过有针对性的实验揭示其背后真正驱动机器学习系统行为的基本原理，并将这些原理提炼为简洁的概念模型，从而既可以解释已有系统的行为，也可指导新系统的设计。在这一过程中，我们也将重新审视、挑战并完善关于机器学习模型开发的若干传统认知。

论文题目：From Data, to Models, and Back: Making Machine Learning Predictably Reliable

作者：Ilyas, Andrew

类型：2025年博士论文

学校：Massachusetts Institute of Technology（美国麻省理工学院）

下载链接：

链接: https://pan.baidu.com/s/1Doxo6zz_fQj0Bcc5kRNN1w?pwd=2mxw

硕博论文汇总：

链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5

人工智能系统即将在我们的日常生活中扮演重要角色。许多此类系统都由机器学习 (ML) 算法驱动，即自动从数据中提取模式的技术。具体而言，给定输入-输出样本（称为训练数据），机器学习算法会生成一个函数（称为 ML 模型），该函数可以预测与新的、未见过的输入相对应的输出。通过这种方式，ML 算法可以“学习”执行图像分类、语音识别或文本生成等任务，而无需经过明确的编程。

值得注意的是，最近的研究发现，当同时增加训练数据的数量和所考虑预测器的复杂性时，相对简单的机器学习算法能够产生令人印象深刻的性能系统。例如，ChatGPT 等技术的核心是一种简单的机器学习算法，旨在预测自然文本序列中的下一个标记，并将其应用于数十亿互联网文档的规模作为训练数据。Claude、Stable Diffusion 甚至谷歌翻译等由机器学习驱动的平台都进一步证明了扩展简单机器学习算法的有效性。

然而，尽管这些系统性能卓越，可靠地部署机器学习系统仍是一项重大挑战。事实上，开发人员经常在设计、构建和部署模型时遇到各种实际问题。例如，用于文本摘要的机器学习模型最终会“产生”虚假信息，误导用户 [HYM+23]。同样，用于对射线照片进行分类的机器学习模型对医院特有的伪影高度敏感 [DJL21]，并且在不同种族的X光片中表现出截然不同的性能 [SLM+20]。即使是简单、高精度的模型（例如，用于预测房价的模型），在与人类交互时也可能灾难性地失败，因为人类会以策略性的方式与这些系统交互 [Kig21]。如果用户怀有恶意，情况会更加糟糕。这类用户可以精心设计输入，从而引发机器学习模型的非预期行为 [SZS+14]、有害输出 [ZWK+23] 或隐私数据 [CTW+21]。对于越来越多地在高风险环境中使用机器学习的开发者来说，尤其令人担忧的是，这些问题只有在实际部署模型后才会暴露出来。

这种现状激发了人们对机器学习系统的另一个需求。当然，我们希望这些系统性能卓越——但我们也必须能够在部署之前预测并弥补它们的优势、劣势和故障模式。在本文中，我们将达到这一标准的机器学习系统称为可预测可靠的系统。重要的是，可预测可靠的系统不一定是100%有效的系统。相反，我们努力追求与工程、科学或应用统计学等领域的情况类似的系统。这些领域产生的成果的可靠性的关键在于我们对其进行推理的能力——我们可以回答诸如“这架飞机在什么条件下会飞？”或“这项研究的结论在什么环境下成立？”或“这种药物对哪些患者有效？”之类的问题。同样，一个可预测可靠的机器学习系统，是我们构建于足够稳健的设计原则之上的系统，使我们能够预测其部署后的行为。那么问题就变成了：

我们如何构建可预测、可靠的机器学习系统？

为了解答这个问题，我们首先对通往可预测、可靠的机器学习之路进行一番阐述——本论文旨在为此做出一点小小的贡献。然后，我们总结了本论文的具体贡献。

从模型到流水线。思考机器学习可靠性时，主流范式以机器学习模型为中心。人们会寻找特定模型中的漏洞，并主要使用在模型层面评估的指标来衡量准确性、公平性和鲁棒性等属性。

然而，这种以模型为中心的可靠性方法并不能涵盖全部情况。毕竟，模型并非凭空而来。相反，它们是一系列显式和隐式设计选择的产物，我们将其称为机器学习流水线。

具体来说，在构建机器学习系统时，开发人员必须决定数据收集流程（如何收集示例数据？）、训练数据集（我将在哪些示例中展示我的算法？）、学习算法（我将使用什么技术来生成模型？）以及部署环境（我将在哪里部署生成的模型？）。

无论出于何种目的构建机器学习模型，都会面临这四个设计决策。例如，假设一位开发者想要构建一个图像分类模型。他们首先必须确定数据收集流程——是从现有的图像库中抓取数据，还是自行收集新图像？然后，他们必须使用此数据收集流程构建训练数据集，例如，决定保留或丢弃哪些图像，以及如何格式化保留的图像。接下来，他们必须指定一个学习算法，该算法将接收训练数据并输出一个图像分类器。最后，即使在完成此步骤之后，开发者仍然必须决定谁可以访问他们的分类器，以及它在什么条件下应该工作。

因此，构建可预测、可靠的机器学习系统需要对这条流程有精准的理解。具体来说，我们需要能够准确且稳健地预测这条流程的变化将如何改变最终系统的行为。

实验、抽象和理论。我们如何才能建立这样的理解？解决这个问题最直接的方法被证明是困难的。例如，在计算机科学、数学和统计学领域，理解和分析复杂系统的典型方法是提供关于它们的理论保证。然而，到目前为止，大规模机器学习模型仍然无法被数学理论所掌握。或者，我们可以尝试应用细粒度的实证分析，但机器学习系统的规模之大使得这种分析变得困难。（为了更好地理解这种规模，运行支持最先进语言模型的机器学习算法需要数百天的时间和数百万美元的计算资源。）

为了应对这一挑战，本文借鉴了一种基于稳健实验抽象的方法。给定一个机器学习设计决策，该方法旨在设计一个简单的概念模型，该模型能够描述和预测决策函数下的模型行为。一个好的概念模型能够满足两个要求：

1. 描述能力：给定一个机器学习系统，一个好的概念模型应该能够根据其开发过程中做出的设计选择来解释系统的行为。

2. 规范能力：给定我们希望机器学习系统满足的标准，一个好的概念模型应该能够让我们做出最优（或接近最优）的设计决策，以满足这些标准。

当然，这种整体方法并非新鲜事物。事实上，它是在许多其他情况下构建可预测可靠系统的标准途径。事实上，我们之所以能够在不建造摩天大楼的情况下信任它，是因为我们成功地将建筑物的属性抽象成一个简单的概念模型——质心、重力、牛顿定律等等——我们可以轻松地对其进行模拟和推理。这个概念模型经过数百年的实验而不断完善（例如，证明不同质量的物体以相同的速度下落），现在已经非常成熟，以至于我们甚至接受关于物理结构的“证明”，而这些证明实际上完全取决于我们所构建的概念模型（例如，用于证明结构完整性的有限元分析）。类似的故事也可以在其他情况下发生，无论是制造飞机还是设计材料。

本论文。受上述讨论的启发，本论文将结合实验和理论分析，为机器学习流程的几个部分建立概念模型。

我们将从第一部分开始，从机器学习流程的末端——部署环境——开始研究对抗性输入，这是机器学习在实际环境中表现异常的最极端（也是最广为人知）的例子之一。我们对机器学习流程这一阶段的研究，不仅将作为我们概述的方法（收集数据、设计概念模型、得出预测）的范例，也将作为在机器学习流程的每个阶段更广泛地应用这种方法的证据。

具体来说，我们对部署环境阶段的研究将促使我们更深入地了解机器学习算法如何使用数据，因此我们接下来将我们的方法应用于机器学习流程的“数据集”阶段（第二部分）。具体来说，我们将构建抽象概念，以理解我们选择的训练数据集如何影响相应机器学习模型的行为和偏差。

当然，这个数据集源自数据收集过程——我们收集潜在训练数据的实际机制。如果这个过程本身存在偏差，会发生什么？

第三部分将尝试通过研究有偏差的数据收集流程的影响、提出此类偏差的抽象概念并对其进行理论分析来回答这个问题。

最后，第四部分探讨了机器学习流程的剩余阶段——算法。我们研究了机器学习算法的两个常见构建模块。通过有针对性的实验，我们表明，普遍的人类直觉通常不足以解释这些算法基元的行为方式，并根据我们的结果提出了新的概念模型。

在所有这些部分中，我们反复遇到的主题是，在机器学习流程的某个阶段做出的决策通常会对模型行为产生显著的、非直觉的、但最终可预测的影响。本论文采用第一性原理方法研究机器学习流程，旨在为追求可预测的可靠机器学习系统做出贡献。

第一部分概述：对抗性机器学习（部署环境）

左图是一张自然的猪照片，机器学习模型（基于深度学习的 ImageNet 分类器）将其正确分类为猪。添加少量精心设计的噪声（中间）后，图像看起来与左图完全相同，但同一机器学习模型却将其错误地分类为客机。

随机采样 3D 打印海龟的姿势，对其进行对抗扰动，以便在每个视角下将其分类为步枪1。未受干扰的模型几乎 100% 正确地将其分类为海龟。

Google Cloud Vision 演示在原始图像（左）和对应的对抗图像（右）上进行标记，其中，使用 `• 有界扰动生成，e = 0.1：该图像被标记为目标类。

仅标签设置中代理分数 Sˆ 的推导说明。

3.2 节实验的概念图。(a) 中，我们将特征分解为鲁棒/非鲁棒特征的组合（3.2.1 节）。(b) 中，我们构建了一个数据集，该数据集在人类看来似乎被错误标记（通过对抗样本），但在原始测试集上却取得了良好的准确率（3.2.2 节）。

第二部分概述：了解机器学习模型如何使用数据

在上图中，每个点对应 CIFAR-10 训练集的一个子集——左侧散点图中的每个点都是一个随机子集，右侧散点图中的每个点都是根据不同的启发式方法（由点的色调给定）选择的非随机子集。每个点的 x 值是数据模型对模型在相应数据集上训练时的行为的预测，y 值是模型的实际行为。

第三部分概述：适应有偏见的数据收集

数据标注流程概述。首先，我们使用多个模型的前 5 个预测结果，为每幅图像收集一个潜在标签池（第 9.2.1 节）。然后，我们要求标注者使用 CONTAINS 任务（详见第 9.1 节）评估每个标签（单独）的有效性。接下来，我们将每幅图像的所有经过严格筛选的标签呈现给一组新的标注者，并要求他们根据自己的判断为图像中的每个不同对象选择一个标签，并为主要对象选择一个标签，即分类任务（第 9.2.2 节）。最后，我们汇总他们的反馈，以获得细粒度的图像标注（第 9.2.2 节）。