OR-Bench: An Over-Refusal Benchmark for Large Language Models

2024年05月31日
  • 简介
    大型语言模型(LLMs)需要仔细的安全对齐以防止恶意输出。虽然有很多研究致力于减轻有害内容的生成,但增强的安全性往往会带来过度拒绝的副作用,使LLMs可能会拒绝无害的提示并变得不太有用。虽然过度拒绝的问题已经被实证观察到,但由于难以制作出看似有害但实际上是无害的提示,因此系统性的测量是具有挑战性的。本研究提出了一种新方法,用于自动生成大规模的“看似有害的提示”(被LLMs拒绝的无害提示)。利用这种技术,我们推出了OR-Bench,这是第一个大规模的过度拒绝基准。OR-Bench包括10个常见的拒绝类别中的80,000个看似有害的提示,约1,000个即使对于最先进的LLMs也很具有挑战性的难题子集,以及额外的600个有害提示以防止不加区分的回应。然后,我们进行了全面的研究,以测量25个流行LLMs在8个模型族中的过度拒绝情况。我们的数据集可在https://huggingface.co/datasets/bench-llm/OR-Bench上获得,相应的演示可在https://huggingface.co/spaces/bench-llm/or-bench上找到。我们希望这个基准可以帮助社区开发更好的安全对齐模型。
  • 作者讲解
  • 图表
  • 解决问题
    解决过度拒绝问题,即大型语言模型(LLMs)拒绝看似有害但实际上是无害的提示的问题。
  • 关键思路
    通过自动化生成大规模的“看似有害的提示”,建立了OR-Bench数据集,用于测量25种流行LLMs在8个模型家族中的过度拒绝情况。
  • 其它亮点
    OR-Bench数据集包括80,000个看似有害的提示,涵盖10个常见的拒绝类别,以及约1,000个难以处理的提示和600个有害提示。实验结果显示,大多数LLMs存在过度拒绝问题,OR-Bench数据集可以帮助研究人员开发更好的安全性对齐模型。
  • 相关研究
    最近的相关研究主要关注如何减少LLMs生成有害内容的问题,但这篇论文提出了过度拒绝的问题,并建立了OR-Bench数据集来解决这个问题。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问