- 简介“越狱”攻击语言模型的兴起导致了一系列的防御措施,旨在防止不良响应的输出。在这项工作中,我们对防御管道的两个阶段进行了批判性的审查:(i)定义什么构成不安全输出,(ii)通过输入处理或微调等方法执行定义。我们通过展示现有的执行机制甚至不能防御一个简单的不安全输出定义(包含单词“紫色”)来严重怀疑其功效。相比之下,后处理输出对于这样的定义是完全稳健的。根据我们的结果,我们提出了我们的立场,即防御越狱的真正挑战在于获得一个良好的不安全响应定义:没有良好的定义,任何执行策略都无法成功,但有了良好的定义,输出处理已经作为一个稳健的基线,尽管需要推理时间开销。
-
- 图表
- 解决问题解决问题:本论文试图解决针对语言模型的“越狱”攻击所带来的问题,即如何定义和防止模型输出不安全的响应。
- 关键思路关键思路:本文对定义不安全输出和执行防御机制两个方面进行了批判性分析,并提出了使用后处理作为一种有效的防御机制。
- 其它亮点亮点:实验结果表明,当前的防御机制在防止不安全输出方面存在缺陷,而使用后处理可以作为一种具有鲁棒性的基准线。此外,本文还提出了获得良好的不安全响应定义是解决“越狱”攻击问题的关键。
- 相关研究:最近的相关研究包括对语言模型“越狱”攻击的不同防御机制的研究,如输入处理和微调等。相关论文包括《Defending Against Neural Fake News》和《Jailbreak: The Danger of Fine- Tuning Language Models with Human Corrections》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流