OR-Bench: An Over-Refusal Benchmark for Large Language Models

简介

大型语言模型（LLMs）需要仔细的安全对齐以防止恶意输出。虽然有很多研究致力于减轻有害内容的生成，但增强的安全性往往会带来过度拒绝的副作用，使LLMs可能会拒绝无害的提示并变得不太有用。虽然过度拒绝的问题已经被实证观察到，但由于难以制作出看似有害但实际上是无害的提示，因此系统性的测量是具有挑战性的。本研究提出了一种新方法，用于自动生成大规模的“看似有害的提示”（被LLMs拒绝的无害提示）。利用这种技术，我们推出了OR-Bench，这是第一个大规模的过度拒绝基准。OR-Bench包括10个常见的拒绝类别中的80,000个看似有害的提示，约1,000个即使对于最先进的LLMs也很具有挑战性的难题子集，以及额外的600个有害提示以防止不加区分的回应。然后，我们进行了全面的研究，以测量25个流行LLMs在8个模型族中的过度拒绝情况。我们的数据集可在https://huggingface.co/datasets/bench-llm/OR-Bench上获得，相应的演示可在https://huggingface.co/spaces/bench-llm/or-bench上找到。我们希望这个基准可以帮助社区开发更好的安全对齐模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决过度拒绝问题，即大型语言模型（LLMs）拒绝看似有害但实际上是无害的提示的问题。
关键思路

通过自动化生成大规模的“看似有害的提示”，建立了OR-Bench数据集，用于测量25种流行LLMs在8个模型家族中的过度拒绝情况。
其它亮点

OR-Bench数据集包括80,000个看似有害的提示，涵盖10个常见的拒绝类别，以及约1,000个难以处理的提示和600个有害提示。实验结果显示，大多数LLMs存在过度拒绝问题，OR-Bench数据集可以帮助研究人员开发更好的安全性对齐模型。
相关研究

最近的相关研究主要关注如何减少LLMs生成有害内容的问题，但这篇论文提出了过度拒绝的问题，并建立了OR-Bench数据集来解决这个问题。

OR-Bench: An Over-Refusal Benchmark for Large Language Models

提问交流

提问交流