Rethinking How to Evaluate Language Model Jailbreak

向作者提问

NEW

简介

大型语言模型（LLMs）已经越来越多地与各种应用程序集成。为了确保LLMs不会生成不安全的响应，它们与指定受限内容的保障措施相一致。然而，这种对齐可以被绕过，使用一种通常称为越狱的技术来生成被禁止的内容。已经提出了不同的系统来自动执行越狱。这些系统依靠评估方法来确定越狱尝试是否成功。然而，我们的分析揭示了当前越狱评估方法有两个限制。第一，它们的目标缺乏明确性，不符合识别不安全响应的目标。第二，它们将越狱结果过于简单化为二进制结果，成功或失败。在本文中，我们提出了三个度量标准，即保障违规、信息量和相对真实性，来评估语言模型的越狱。此外，我们展示了这些度量标准如何与不同恶意行为者的目标相关。为了计算这些度量标准，我们引入了一个多方面的方法，扩展了自然语言生成评估方法，在预处理响应后进行评估。我们在由三个恶意意图数据集和三个越狱系统产生的基准数据集上评估了我们的度量标准。基准数据集由三个注释者标记。我们将我们的多方面方法与三个现有的越狱评估方法进行了比较。实验证明，我们的多方面评估方法优于现有方法，平均F1得分比现有基线提高了17％。我们的发现促使我们需要摆脱越狱问题的二进制观点，并采用更全面的评估方法来确保语言模型的安全。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图解决当前语言模型监管中存在的 jailbreak 问题，即如何评估语言模型是否能够生成不安全的响应。
关键思路

本文提出了三个度量标准：安全违规、信息量和相对真实性，以评估语言模型的 jailbreak 能力。同时，引入了一种多方面的评估方法，相较于现有的评估方法，该方法能够更全面地评估语言模型的 jailbreak 能力。
其它亮点

本文使用了三个恶意意图数据集和三个 jailbreak 系统构建了 benchmark 数据集，并对该数据集进行了三次标注。实验结果表明，相较于现有的评估方法，本文提出的多方面评估方法能够在 F1 分数上平均提高 17%。此外，本文的度量标准和评估方法能够更全面地评估语言模型的 jailbreak 能力，为语言模型的监管提供了更全面的保障。
相关研究

在相关研究方面，目前已经有一些研究关注语言模型的监管问题，例如对于语言模型的不当行为进行检测和修复等。相关的研究论文包括：《Detecting and Repairing Inappropriate Behavior of Language Models》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问