- 简介本文介绍了联邦学习(FL)的概念,它可以使多个参与方在不需要直接共享数据的情况下协同微调一个大型语言模型(LLM)。理想情况下,通过在与人类偏好和安全原则一致的分散数据上进行训练,联邦指令调整可以产生一个能够以有益和安全的方式行事的LLM。本文首次揭示了FedIT中安全对齐的漏洞,提出了一种简单、隐蔽但有效的安全攻击方法。具体而言,恶意客户端可以自动生成攻击数据,而不需要手动干预,并通过在此类攻击数据上训练其本地LLM来攻击FedIT系统。不幸的是,这种安全攻击不仅可以危及通过FedIT训练的LLM的安全对齐,而且许多现有的FL防御方法也无法有效防御。针对这一问题,我们进一步提出了一种事后防御方法,它可以依靠完全自动化的流程:生成防御数据并进一步微调LLM。广泛的实验表明,我们的安全攻击方法可以显着危及LLM的安全对齐(例如将安全率降低70%),而现有的防御方法无法有效防御(最多只能提高4%的绝对改善),而我们的安全防御方法可以显着提高遭受攻击的LLM的安全对齐(最多提高69%的绝对改善)。
- 图表
- 解决问题本文旨在研究联邦学习中的安全问题,特别是在大型语言模型的训练中如何保证安全性。
- 关键思路本文提出了一种简单而有效的安全攻击方法,并针对该攻击方法提出了一种后续防御方法。
- 其它亮点实验结果表明,本文提出的安全攻击方法可以显著降低大型语言模型的安全性,而现有的防御方法效果有限。同时,本文提出的后续防御方法可以显著提高被攻击大型语言模型的安全性。
- 在联邦学习领域,最近的相关研究包括《Federated Learning: Challenges, Methods, and Future Directions》、《Communication-Efficient Learning of Deep Networks from Decentralized Data》等。
沙发等你来抢
去评论
评论
沙发等你来抢