A StrongREJECT for Empty Jailbreaks

简介

大型语言模型（LLMs）的兴起引起了人们对“越狱”的关注，这些“越狱”可以被用于恶意目的。然而，目前还没有一个标准的基准来衡量“越狱”的严重程度，这使得“越狱”论文的作者不得不自行创建基准。本文指出，这些基准通常包含模糊或无法回答的问题，并使用偏向于高估低质量模型响应的评分标准。一些“越狱”技术使问题变得更加严重，因为它们甚至会降低模型对良性问题的响应质量：我们展示了几种“越狱”技术如何显著降低GPT-4在MMLU上的零-shot性能。此外，“越狱”还可能使得从“未经审查”的开源模型中引出有害响应变得更加困难。本文提出了一个新的基准——StrongREJECT，它通过使用更高质量的问题集和更准确的响应评分算法更好地区分有效和无效的“越狱”。我们展示了我们的新评分方案更符合人类对响应质量和整体“越狱”效果的判断，特别是对于那些对现有基准的“越狱”性能估计贡献最大的低质量响应。我们在https://github.com/alexandrasouly/strongreject上发布了我们的代码和数据。
图表
解决问题

本论文试图解决大语言模型（LLMs）被恶意使用的问题，特别是缺乏标准的基准测试来衡量破解的严重性的问题。
关键思路

论文提出了一个新的基准测试StrongREJECT，使用更高质量的问题集和更准确的响应评分算法，更好地区分有效和无效的破解，尤其是对于那些质量较低的模型响应。
其它亮点

论文发现现有的基准测试经常包含模糊或无法回答的问题，并使用偏向于高估低质量模型响应的评分标准。一些破解技术甚至会降低模型对良性问题的响应质量。作者还展示了几种破解技术明显降低了GPT-4在MMLU上的零-shot性能。论文提供了代码和数据集，并呼吁更多研究关注这个问题。
相关研究

最近的相关研究包括：《Language Models as Few-Shot Learners》、《GPT-3: Language Models are Few-Shot Learners》等。

A StrongREJECT for Empty Jailbreaks

评论