联邦学习是顺应大数据时代和人工智能技术发展而兴起的一种协调多个参与方共同训练模型的机制.它允许各个参与方将数据保留在本地,在打破数据孤岛的同时保证参与方对数据的控制权.然而联邦学习引入了大量参数交换过程,不仅和集中式训练一样受到模型使用者的威胁,还可能受到来自不可信的参与设备的攻击,因此亟需更强的隐私手段保护各方持有的数据. 本文分析并展望了联邦学习中的隐私保护技术的研究进展和趋势.简要介绍联邦学习的架构和类型,分析联邦学习过程中面临的隐私风险,总结重建、推断两种攻击策略,然后依据联邦学习中的隐私保护机制归纳隐私保护技术,并深入调研应用上述技术的隐私保护算法,从中心、本地、中心与本地结合这3个层面总结现有的保护策略. 最后讨论联邦学习隐私保护面临的挑战并展望未来的发展方向.
http://jos.org.cn/html/2022/3/6446.htm
- 引言
近年来, 大数据驱动的人工智能迸发出巨大潜力, 在金融、医疗、城市规划、自动驾驶等多个领域完成了大规模复杂任务学习. 机器学习作为人工智能的核心技术, 其性能和隐私性也广受关注. 传统的机器学习需要由服务商收集用户的数据后集中训练, 但是用户的数据与用户个体紧密相关, 可能直接包含敏感信息, 如个人年龄、种族、患病信息等; 也可能间接携带隐含的敏感信息, 如个人网页浏览记录、内容偏好所隐含的用户政治倾向. 如果这些敏感信息在收集过程中被服务商泄露或者利用, 将直接威胁用户的人身安全、个人名誉和财产安全. 即便服务商没有直接公开用户数据, 集中训练后发布的模型也可能因为受到隐私攻击而泄露参与训练的数据. 随着隐私问题受到的关注程度日益提高, 用户分享数据的意愿越来越低. 与之矛盾的是, 人工智能技术却必须依靠大量数据收集和融合, 如果不能获取完整丰富的信息来训练模型并发展技术, 人工智能应用的发展将受到严重限制.
在数据孤岛现象与数据融合需求的矛盾逐渐凸显的背景下, 联邦学习(federated learning, FL)应运而生. 2017年, Google公司首次提出了联邦学习的概念[1], 这是一种由多个数据持有方(如手机、物联网设备, 或者金融、医疗机构等)协同训练模型而不分享数据, 仅在中间阶段交换训练参数的学习机制. 理想状况下, 联邦学习得到的共享模型与数据集中在中心服务器上训练所得模型相比, 效果相近或更好[2]. 由此, 企业能够通过合法且高效的方式融合数据提取信息, 个人或其他持有数据的机构依然能够在享受企业提供的人工智能服务的同时, 保有数据的控制权.
尽管联邦学习避免了将数据直接暴露给第三方, 对于数据隐私有天然的保护作用, 但是其中依然存在大量隐私泄露的风险.
- 首先, 联邦学习需要交换中间参数协同训练, 可能泄露隐私. 与集中式学习不同, 联邦学习训练过程需要交换大量中间参数, 其所携带原始数据会暴露在所有参与训练的角色面前, 带来泄露的风险. 例如, 已有研究表明, 可以通过梯度还原部分原始数据[3], 或根据中间参数推断掌握的记录内容是否来自某个特定参与者[4].
- 其次, 不可靠的参与方加剧了隐私泄露的风险. 联邦学习中, 各个参与方由于地理、设备等条件不同, 通信内容的有效性和身份的真实性都难以确认, 因此一旦出现不可靠的参与方攻击, 极易泄露隐私.例如, 半诚实的参与方能够根据合法获取的中间参数推断出其他参与方的标签或数据; 而恶意的参与方更进一步, 能够通过上传精心设计的有害信息诱导其他参与方暴露更多自身数据, 或者不遵守隐私协议进而影响全局的隐私性.
- 此外, 训练完成的模型也面临着隐私泄露的风险. 即便联邦学习的过程中参数没有泄露, 直接发布训练所得的模型依然存在极大风险. 这种风险来自机器学习自身的脆弱性. 在训练中, 模型提高准确性依赖于对数据样本的规律挖掘. 但是研究者[4]注意到, 追求模型在训练样本上的准确度, 可能导致模型的参数乃至结构“记住”训练样本的细节, 使得模型携带训练集的敏感信息. 根据这一特性, 攻击者可以通过反复查询模型的预测接口来推测某条记录是否存在于训练集、推测模型的具体参数, 而根据模型发布的参数能够进一步推测训练集成员或训练集具体样本.
由此可见, 不加保护的进行联邦学习, 训练中涉及的众多参与者的数据都将面临泄露的风险. 而数据一旦泄露, 不仅隐私泄露者面临严重损失, 参与者间彼此信任合作的联合训练模式也将难以为继.
解决联邦学习信息泄露问题迫在眉睫. 然而, 联邦学习中数据分布复杂、应用场景丰富且需要多次数据交换, 这些因素为隐私保护带来一系列挑战.
- 第一, 联邦学习的训练场景多样且需求复杂, 现有的隐私保护方法无法通用. 已有的集中式机器学习隐私保护研究以中心服务器诚实为前提, 仅考虑模型发布后可能受到的攻击, 没有针对内部攻击者的解决方案. 而且现有算法大多针对单一的集中式训练场景, 没有考虑多个参与方、多种架构、多种数据分布方式下的数据交换和模型协同训练的情况. 因此, 设计适应不同场景和不同需求的隐私保护算法, 同时抵御外部和内部攻击, 是联邦学习隐私保护的重要挑战.
- 第二, 联邦学习中参与方的可信程度低, 潜在的攻击角度多, 对隐私保护算法的鲁棒性要求更高. 这里, 鲁棒性指模型容忍恶意攻击稳定运行的能力. 联邦学习中, 参与者一旦发起攻击, 能够观察到更多的中间参数, 甚至能够篡改参数影响训练过程, 隐私防御的难度远高于外部出现的攻击. 而参与者之间如果共谋, 可能获取更多敏感信息. 因此, 提高隐私保护算法的鲁棒性, 减少隐私算法中对参与者的可信程度的假设, 是联邦学习隐私保护面临的难题.
- 第三, 联邦学习本身通信不稳定, 模型计算代价高, 因而对隐私保护机制的通信量和复杂度要求严格. 现实场景下的联邦学习所面临的复杂松散的网络结构导致终端通信不稳定, 在此基础上的隐私保护算法难以简化. 而复杂的隐私保护算法将带来更高的计算量、更大通信代价, 进一步制约联邦学习的训练效率. 研究高效率、轻量级的联邦学习隐私保护算法, 降低额外开销, 是联邦学习隐私保护必须面对的挑战.
- 第四, 联邦学习中参数维度高、数据分布不均, 难以在提供隐私保护的同时保持模型的可用性. 联邦学习中间参数的维度与模型结构和输入数据维度相关, 参数维度往往极高, 造成了极大的隐私开销.此外, 联邦学习的用户数量不定且数据集大小不一, 如何在平衡不同数据集的同时保护隐私, 也是一个巨大挑战.
综上所述, 更加精细的隐私策略设计、更加精确的隐私预算分配、更加适应数据交换的隐私协议构建, 是联邦学习隐私保护进一步发展必须面对的议题. 而明确现有的隐私问题和保护手段, 是技术发展的基础. 联邦学习的基础——机器学习的隐私攻击和防御已经被充分调研[5]. 机器学习面临的外部攻击同样威胁着联邦学习的发布模型, 但是机器学习的隐私保护手段却远远不足以为联邦学习提供保护. 这是由于联邦学习同时面临着传统的外部攻击和其独有的内部攻击, 因此联邦学习的隐私保护方案必须同时为内部训练过程和外部模型发布提供双重保护.
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢