Does Refusal Training in LLMs Generalize to the Past Tense?

简介

拒绝训练广泛用于防止LLM生成有害、不良或非法输出。我们发现当前的拒绝训练方法存在一个奇特的泛化差距：简单地将有害请求改写成过去式（例如，“如何制作汽油弹？”改为“人们如何制作汽油弹？”）通常足以越狱许多最先进的LLM。我们使用GPT-3.5 Turbo作为改写模型，在Llama-3 8B、GPT-3.5 Turbo、Gemma-2 9B、Phi-3-Mini、GPT-4o和R2D2模型上系统评估了这种方法。例如，对于来自JailbreakBench的有害请求，使用20个过去式改写尝试在GPT-4o上进行这种简单攻击的成功率从使用直接请求的1%增加到88%，以GPT-4作为越狱判决者。有趣的是，我们还发现，将请求改写成将来时的方式不太有效，这表明拒绝防护栏往往认为过去历史问题比假设的未来问题更温和。此外，我们对微调GPT-3.5 Turbo的实验表明，当过去时的例子明确包含在微调数据中时，防御过去改写是可行的。总的来说，我们的研究结果强调，用于使所研究的模型对齐的广泛使用的技术，如SFT、RLHF和对抗性训练，是脆弱的，不总是按预期进行泛化。我们在https://github.com/tml-epfl/llm-past-tense提供了代码和越狱工件。
图表
解决问题

本论文旨在解决拒绝训练方法中存在的漏洞，即仅通过将有害请求转化为过去时态即可规避训练的问题。该问题是否是一个新问题？
关键思路

论文提出了通过将有害请求转化为过去时态规避拒绝训练漏洞的方法，并在多个模型上进行了实验验证。相比当前领域的研究，该方法提供了一种新的应对拒绝训练漏洞的思路。
其它亮点

论文设计了实验来验证该方法的有效性，并提供了开源代码和数据集。此外，论文还发现将请求转化为未来时态并不如过去时态有效，这一发现值得进一步研究。
相关研究

近期的相关研究包括使用SFT、RLHF和对抗训练等技术来解决拒绝训练问题的研究。

Does Refusal Training in LLMs Generalize to the Past Tense?

评论