SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors

向作者提问

NEW

简介

评估对齐的大型语言模型（LLMs）识别和拒绝不安全用户请求的能力对于安全、符合政策的部署至关重要。然而，现有的评估方法存在三个限制，我们通过提出的SORRY-Bench基准测试来解决这些限制。首先，现有方法通常使用粗粒度的不安全主题分类法，并且对某些细粒度主题进行过度表示。例如，在我们评估的十个现有数据集中，拒绝自伤指令的测试比欺诈活动的测试少了3倍以上。SORRY-Bench通过使用一个包含45个潜在不安全主题和450个平衡不安全指令的细粒度分类法来改进这一点，这些指令是通过人机协作方法编制的。其次，常常忽略提示的语言特征和格式，例如不同的语言、方言等，这些只在许多评估中隐含地考虑。我们通过增加20个不同的语言扩充来补充SORRY-Bench，以系统地检查这些影响。第三，现有的评估依赖于大型LLMs（例如GPT-4）进行评估，这可能会产生计算负担。我们研究了创建快速、准确的自动安全评估器的设计选择。通过收集7K+人类注释并进行多元化的LLM作为评判者设计的元评估，我们表明，微调的7B LLMs可以实现与GPT-4规模LLMs相当的准确性，但计算成本更低。将这些内容综合起来，我们在SORRY-Bench上评估了40多个专有和开源LLMs，分析它们独特的拒绝行为。我们希望我们的努力为系统评估LLMs的安全拒绝能力提供了一个平衡、细粒度和高效的基础。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

SORRY-Bench试图解决对大型语言模型（LLMs）进行安全评估的问题，包括现有评估方法粗糙的主题分类、忽略语言特征和格式以及使用计算成本高昂的LLMs。
关键思路

SORRY-Bench提出了一种细粒度的主题分类，使用人机协作方法编制了450个类平衡的不安全指令，并设计了20种语言增强方法，以系统地检查LLMs的安全拒绝能力。此外，通过收集7K+个人工注释和元评估多种LLM作为评判者的设计选择，发现微调的7B LLM可以实现与GPT-4规模LLMs相当的准确性，而计算成本更低。
其它亮点

论文评估了40多个专有和开源LLMs在SORRY-Bench上的性能，并分析了它们独特的拒绝行为。实验设计合理，使用了人机协作方法编制了大量数据集，并提出了一种快速而准确的自动安全评估器。该论文为LLMs的安全拒绝能力提供了一个平衡、细粒度和高效的系统评估框架。
相关研究

与本文相关的研究包括语言模型的安全性评估方法和技术，如对抗攻击、隐私保护和公平性等方面的研究。例如，AdversarialNLI和GLUE等基准数据集被广泛用于评估LLMs的自然语言推理能力。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问