MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries?

2024年06月22日
  • 简介
    人类容易出现认知偏差——一种导致对特定刺激偏离反应的偏见思维模式,尽管在非常不同的情境下也会出现。本文证明,先进的多模态大型语言模型(MLLMs)也表现出类似的倾向。虽然这些模型旨在在安全机制下回答查询,但它们有时会在特定视觉刺激的存在下拒绝无害的查询,无视其上下文的良性特性。作为调查这种行为的初始步骤,我们确定了三种刺激类型,可以触发现有MLLMs的过度敏感性:夸大风险、否定伤害和反直觉解释。为了系统地评估MLLMs对这些刺激的过度敏感性,我们提出了多模态过度敏感性基准(MOSSBench)。这个工具包包括300个手动收集的良性多模态查询,由第三方评审员(AMT)进行交叉验证。使用MOSSBench对20个MLLMs进行的实证研究揭示了几个见解:(1)过度敏感在SOTA MLLMs中普遍存在,对于无害查询的拒绝率高达76%。(2)更安全的模型更过度敏感:增加安全性可能会无意中提高模型响应的谨慎和保守程度。(3)不同类型的刺激倾向于在响应过程的特定阶段——感知、意图推理和安全判断——引起错误。这些发现突显了需要改进的安全机制,以平衡谨慎和上下文适当的响应,提高MLLMs在现实世界应用中的可靠性。我们在https://turningpoint-ai.github.io/MOSSBench/上提供了我们的项目。
  • 作者讲解
  • 图表
  • 解决问题
    研究发现,先进的多模态大语言模型(MLLMs)存在认知失真的问题,即在特定视觉刺激下,模型会拒绝无害的查询,忽略其上下文中的良性特性。本文旨在系统评估MLLMs对于特定视觉刺激的过度敏感性,并提出了一个评估工具MOSSBench。
  • 关键思路
    本文提出了一个评估工具MOSSBench,用于系统评估MLLMs对于特定视觉刺激的过度敏感性。实验结果表明,先进的MLLMs普遍存在过度敏感性的问题,而较安全的模型反而更容易出现过度敏感性。不同类型的刺激会在模型响应过程的不同阶段引起错误。
  • 其它亮点
    本文的亮点包括提出了一个评估工具MOSSBench,对20个MLLMs进行了实验,发现过度敏感性是普遍存在的问题。此外,实验结果还表明,不同类型的刺激会在模型响应过程的不同阶段引起错误。这些发现强调了需要改进安全机制,以在保持谨慎的同时实现上下文适当的响应,从而提高MLLMs在实际应用中的可靠性。
  • 相关研究
    近期的相关研究包括《GPT-3的缺陷:对话中的常识推理不足》、《基于多模态深度学习的图像描述生成研究综述》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问