- 简介评估对齐的大型语言模型(LLMs)识别和拒绝不安全用户请求的能力对于安全、符合政策的部署至关重要。然而,现有的评估方法存在三个限制,我们通过提出的SORRY-Bench基准测试来解决这些限制。首先,现有方法通常使用粗粒度的不安全主题分类法,并且对某些细粒度主题进行过度表示。例如,在我们评估的十个现有数据集中,拒绝自伤指令的测试比欺诈活动的测试少了3倍以上。SORRY-Bench通过使用一个包含45个潜在不安全主题和450个平衡不安全指令的细粒度分类法来改进这一点,这些指令是通过人机协作方法编制的。其次,常常忽略提示的语言特征和格式,例如不同的语言、方言等,这些只在许多评估中隐含地考虑。我们通过增加20个不同的语言扩充来补充SORRY-Bench,以系统地检查这些影响。第三,现有的评估依赖于大型LLMs(例如GPT-4)进行评估,这可能会产生计算负担。我们研究了创建快速、准确的自动安全评估器的设计选择。通过收集7K+人类注释并进行多元化的LLM作为评判者设计的元评估,我们表明,微调的7B LLMs可以实现与GPT-4规模LLMs相当的准确性,但计算成本更低。将这些内容综合起来,我们在SORRY-Bench上评估了40多个专有和开源LLMs,分析它们独特的拒绝行为。我们希望我们的努力为系统评估LLMs的安全拒绝能力提供了一个平衡、细粒度和高效的基础。
-
- 图表
- 解决问题SORRY-Bench试图解决对大型语言模型(LLMs)进行安全评估的问题,包括现有评估方法粗糙的主题分类、忽略语言特征和格式以及使用计算成本高昂的LLMs。
- 关键思路SORRY-Bench提出了一种细粒度的主题分类,使用人机协作方法编制了450个类平衡的不安全指令,并设计了20种语言增强方法,以系统地检查LLMs的安全拒绝能力。此外,通过收集7K+个人工注释和元评估多种LLM作为评判者的设计选择,发现微调的7B LLM可以实现与GPT-4规模LLMs相当的准确性,而计算成本更低。
- 其它亮点论文评估了40多个专有和开源LLMs在SORRY-Bench上的性能,并分析了它们独特的拒绝行为。实验设计合理,使用了人机协作方法编制了大量数据集,并提出了一种快速而准确的自动安全评估器。该论文为LLMs的安全拒绝能力提供了一个平衡、细粒度和高效的系统评估框架。
- 与本文相关的研究包括语言模型的安全性评估方法和技术,如对抗攻击、隐私保护和公平性等方面的研究。例如,AdversarialNLI和GLUE等基准数据集被广泛用于评估LLMs的自然语言推理能力。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流