What's in Your "Safe" Data?: Identifying Benign Data that Breaks Safety

简介

目前的大型语言模型（LLMs），即使是针对安全和对齐性进行调整的模型，也容易被越狱。一些人发现，仅仅使用良性数据（即没有有害内容的数据）对齐模型进行进一步微调，竟然会导致安全性大幅度降低。我们深入探讨了为什么良性微调会无意中导致越狱的数据中心方面。首先，我们通过两个视角来表示微调数据：表示和梯度空间。此外，我们提出了一种双向锚定方法，该方法优先考虑与有害示例接近而与良性示例远离的数据点。通过这样做，我们的方法有效地识别出更有可能在微调后降低模型安全性的良性数据子集。仅使用这些看似良性的100个数据点进行训练，就可以使微调模型对> 70％的测试有害请求做出肯定回应，而在随机选择数据进行微调后，这个数字为<20％。我们还发现，所选数据通常以列表和项目符号或数学问题的形式出现。
图表
解决问题

如何解决大型语言模型在进行无害调整时容易被破解的问题？
关键思路

通过双向锚定方法，优先选择与有害示例接近但与无害示例远离的数据点，以有效识别在无害调整后可能降低模型安全性的子集。
其它亮点

实验表明，仅在选择的100个无害数据点上进行调整，就可以使模型对超过70%的有害请求做出肯定回应。此外，研究还发现选择的数据通常是列表、项目符号或数学问题的形式。
相关研究

与该研究相关的其他研究包括“大型语言模型的安全性和隐私性”（Security and Privacy of Large Language Models）和“对抗性攻击和防御大型语言模型”（Adversarial Attacks and Defenses for Large Language Models）等。

What's in Your "Safe" Data?: Identifying Benign Data that Breaks Safety

评论