联合学习是一种训练机器学习 (ML) 模型的分布式方法,其中数据在本地处理,并且只有旨在立即聚合的集中模型更新和指标才会与编排训练的服务器共享。 这允许在不将原始数据暴露给服务器的情况下根据本地可用信号训练模型,从而增加用户隐私。 2021 年,我们宣布我们正在使用联合学习来训练智能文本选择模型,这是一项 Android 功能,可通过预测用户想要选择的文本然后自动扩展选择范围来帮助用户轻松选择和复制文本。

自推出以来,我们一直致力于通过仔细结合安全聚合 (SecAgg) 和差分隐私的分布式版本来改进该技术的隐私保证。 在这篇文章中,我们描述了我们如何构建和部署第一个联邦学习系统,该系统在所有用户数据对诚实但好奇的服务器可见之前为所有用户数据提供正式的隐私保证,这意味着服务器遵循协议但可以尝试获得 从它收到的数据中了解用户。 根据标准经验测试方法的测量,使用该系统训练的智能文本选择模型的记忆力减少了两倍以上。

扩展安全聚合

数据最小化是联邦学习背后的重要隐私原则。 它指的是训练期间所需的重点数据收集、早期聚合和最少的数据保留。 虽然参与联合学习的每个设备都会计算模型更新,但编排服务器只对它们的平均值感兴趣。 因此,在一个针对数据最小化进行优化的世界中,服务器不会学习任何关于单个更新的信息,只会接收聚合模型更新。 这正是 SecAgg 协议在严格的密码保证下实现的。

对这项工作很重要的是,最近的两项进展提高了谷歌 SecAgg 的效率和可扩展性:

改进的加密协议:直到最近,SecAgg 的一个重要瓶颈是客户端计算,因为每个设备上所需的工作与参与该回合的客户端总数 (N) 成线性比例关系。 在新协议中,客户端计算现在以 N 为单位按对数缩放。这与服务器成本的类似收益一起,导致协议能够处理更大的回合。 让更多的用户参与每一轮可以改善隐私,无论是在经验上还是在形式上。

优化的客户端编排:SecAgg 是一种交互式协议,参与设备在其中共同进步。 该协议的一个重要特征是它对某些设备掉线具有鲁棒性。 如果客户端未在预定义的时间窗口内发送响应,则协议可以在没有该客户端的贡献的情况下继续。 我们已经部署了统计方法,以自适应的方式有效地自动调整这样的时间窗口,从而提高了协议吞吐量。

上述改进使得以更强的数据最小化保证训练智能文本选择变得更容易和更快。

通过安全聚合聚合一切

典型的联邦训练系统不仅涉及聚合模型更新,还涉及描述本地训练性能的指标。 这些对于理解模型行为和调试潜在的训练问题很重要。 在智能文本选择的联合训练中,所有模型更新和指标都通过 SecAgg 聚合。 此行为使用 TensorFlow Federated 静态断言,并在 Android 的私有计算核心安全环境中本地强制执行。 因此,这进一步增强了训练智能文本选择的用户的隐私,因为未聚合的模型更新和指标对服务器基础架构的任何部分都是不可见的。

差分隐私

SecAgg 有助于最大限度地减少数据泄露,但它不一定会生成保证不会泄露任何个人独有信息的聚合。 这就是差异隐私 (DP) 的用武之地。DP 是一种数学框架,它限制了个人对计算结果的影响,例如 ML 模型的参数。 这是通过限制任何单个用户的贡献并在训练过程中添加噪声以在输出模型上产生概率分布来实现的。 DP 带有一个参数 (ε),用于量化在添加或删除任何单个用户的训练示例时分布可能发生的变化(越小越好)。

最近,我们宣布了一种新的联邦训练方法,它以集中的方式强制执行正式且有意义的强大 DP 保证,其中受信任的服务器控制训练过程。 这可以防止可能试图分析模型的外部攻击者。 然而,这种方法仍然依赖于对中央服务器的信任。 为了提供更好的隐私保护,我们创建了一个系统,该系统使用分布式差分隐私 (DDP) 以分布式方式实施 DP,并集成在 SecAgg 协议中。

分布式差分隐私

DDP 是一种为诚实但好奇的服务器协调训练提供 DP 保证的技术。 它的工作原理是让每个参与的设备在本地剪辑并噪声其更新,然后通过上述新的 SecAgg 协议聚合这些噪声剪辑更新。 结果,服务器只能看到裁剪更新的噪声总和。

然而,局部噪声添加和 SecAgg 使用的结合在实践中提出了重大挑战:

一种改进的离散化方法:一个挑战是在 SecAgg 的有限群中使用整数模算法将模型参数正确地表示为整数,这可能会膨胀离散化模型的范数,并且在相同的隐私级别下需要更多的噪声。 例如,随机舍入到最接近的整数可能会使用户的贡献膨胀一个等于模型参数数量的因子。 我们通过缩放模型参数、应用随机旋转和四舍五入到最接近的整数来解决这个问题。 我们还开发了一种在训练期间自动调整离散化尺度的方法。 这导致 DP 和 SecAgg 之间的集成更加高效和准确。
优化的离散噪声添加:另一个挑战是设计一种方案,在不牺牲端到端隐私保证的情况下,为每个模型参数选择任意数量的比特,这取决于模型更新的裁剪和噪声方式。 为了解决这个问题,我们在离散域中添加了整数噪声,并使用分布式离散高斯和分布式 Skellam 机制分析了整数噪声向量和的 DP 属性。

我们在各种基准数据集和生产环境中测试了我们的 DDP 解决方案,并验证了我们可以使用每个模型参数 12 位大小的 SecAgg 有限组将精度与中央 DP 相匹配。 这意味着我们能够在减少内存和通信带宽的同时获得更多的隐私优势。 为了证明这一点,我们应用这项技术来训练和启动智能文本选择模型。 这是通过选择适当数量的噪声来保持模型质量来完成的。 所有使用联邦学习训练的智能文本选择模型现在都带有 DDP 保证,适用于模型更新和服务器在训练期间看到的指标。 我们还在 TensorFlow Federated 中开源了实现。

实证隐私测试

虽然 DDP 为智能文本选择添加了正式的隐私保证,但这些正式的保证相对较弱(有限但很大的 ε,数以百计)。 然而,由于以下几个原因,任何有限的 ε 都是对没有正式隐私保证的模型的改进:1)有限的 ε 使模型进入可以量化进一步隐私改进的状态; 2)即使是大的 ε 也可能表明从训练模型重建训练数据的能力大幅下降。 为了更具体地了解实证隐私优势,我们通过将秘密共享器框架应用于智能文本选择模型来进行全面分析。 Secret Sharer 是一种模型审计技术,可用于衡量模型无意中记住其训练数据的程度。

为了对智能文本选择执行秘密共享器分析,我们设置了使用 SecAgg 收集梯度的控制实验。 处理实验使用具有不同噪声量的分布式差分隐私聚合器。

我们发现,即使是少量的噪音也会显着降低记忆力,与基线相比,相关金丝雀的 Secret Sharer 排名指标增加了一倍以上。 这意味着即使 DP ε 很大,我们凭经验验证这些噪声量已经有助于减少该模型的记忆。 然而,为了进一步改进这一点并获得更强的形式保证,我们的目标是在未来使用更大的噪声倍增器。

下一步

我们开发并部署了第一个联邦学习和分布式差分隐私系统,该系统具有关于诚实但好奇的服务器的正式 DP 保证。 在提供实质性额外保护的同时,一个完全恶意的服务器可能仍然能够通过操纵 SecAgg 的公钥交换或通过注入足够数量的不添加规定噪声的“假”恶意客户端来绕过 DDP 保证 聚合池。 我们很高兴通过继续加强 DP 保证及其范围来应对这些挑战。

内容中包含的图片若涉及版权问题,请及时与我们联系删除