Refusal in Language Models Is Mediated by a Single Direction

简介

这篇文章介绍了对话式大语言模型如何被调整为既能遵循指令，又能保证安全，从而产生了遵从良性请求但拒绝有害请求的模型。虽然这种拒绝行为在聊天模型中很普遍，但其基本机制仍然不为人所知。作者通过研究发现，这种拒绝行为是由一个一维子空间所调节的，对于13个不同的开源聊天模型，无论其大小是否达到了72B的参数，都存在这样一个方向。具体来说，对于每个模型，我们找到了一个单一的方向，如果从模型的剩余流激活中抹去这个方向，它将无法拒绝有害指令，而添加这个方向则会导致即使是无害指令也会被拒绝。利用这个发现，作者提出了一种新颖的白盒越狱方法，可以在最小影响其他能力的情况下手术式地禁用拒绝行为。最后，作者机械地分析了对抗性后缀如何抑制拒绝调节方向的传播。这些发现强调了当前安全调整方法的脆弱性。更广泛地说，我们的工作展示了如何利用对模型内部的理解来开发控制模型行为的实用方法。
图表
解决问题

本论文旨在研究聊天模型拒绝有害指令的机制，以及如何通过了解模型内部机制来控制模型行为。
关键思路

本论文通过对13个不同规模的聊天模型进行研究，发现拒绝有害指令的机制是由一个一维的子空间所决定的。通过删减或添加该子空间，可以控制模型的拒绝行为。在此基础上，提出了一种新颖的白盒越狱方法，可以在最小程度上影响模型的其他能力。
其它亮点

论文的实验使用了13个不同规模的开源聊天模型，并提出了一种新颖的白盒越狱方法。研究发现，当前的安全微调方法容易出现脆弱性。同时，论文还分析了对抗后缀如何影响拒绝机制的传播。该研究对于了解模型内部机制以及控制模型行为具有重要意义。
相关研究

最近的相关研究包括《Towards Robust and Verified AI: Specification Testing, Robust Training, and Formal Verification》、《Adversarial Robustness: From Self-Supervised Pre-Training to Fine-Tuning》等。

Refusal in Language Models Is Mediated by a Single Direction

评论