MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries?

向作者提问

NEW

简介

人类容易出现认知偏差——一种导致对特定刺激偏离反应的偏见思维模式，尽管在非常不同的情境下也会出现。本文证明，先进的多模态大型语言模型（MLLMs）也表现出类似的倾向。虽然这些模型旨在在安全机制下回答查询，但它们有时会在特定视觉刺激的存在下拒绝无害的查询，无视其上下文的良性特性。作为调查这种行为的初始步骤，我们确定了三种刺激类型，可以触发现有MLLMs的过度敏感性：夸大风险、否定伤害和反直觉解释。为了系统地评估MLLMs对这些刺激的过度敏感性，我们提出了多模态过度敏感性基准（MOSSBench）。这个工具包包括300个手动收集的良性多模态查询，由第三方评审员（AMT）进行交叉验证。使用MOSSBench对20个MLLMs进行的实证研究揭示了几个见解：（1）过度敏感在SOTA MLLMs中普遍存在，对于无害查询的拒绝率高达76%。（2）更安全的模型更过度敏感：增加安全性可能会无意中提高模型响应的谨慎和保守程度。（3）不同类型的刺激倾向于在响应过程的特定阶段——感知、意图推理和安全判断——引起错误。这些发现突显了需要改进的安全机制，以平衡谨慎和上下文适当的响应，提高MLLMs在现实世界应用中的可靠性。我们在https://turningpoint-ai.github.io/MOSSBench/上提供了我们的项目。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究发现，先进的多模态大语言模型（MLLMs）存在认知失真的问题，即在特定视觉刺激下，模型会拒绝无害的查询，忽略其上下文中的良性特性。本文旨在系统评估MLLMs对于特定视觉刺激的过度敏感性，并提出了一个评估工具MOSSBench。
关键思路

本文提出了一个评估工具MOSSBench，用于系统评估MLLMs对于特定视觉刺激的过度敏感性。实验结果表明，先进的MLLMs普遍存在过度敏感性的问题，而较安全的模型反而更容易出现过度敏感性。不同类型的刺激会在模型响应过程的不同阶段引起错误。
其它亮点

本文的亮点包括提出了一个评估工具MOSSBench，对20个MLLMs进行了实验，发现过度敏感性是普遍存在的问题。此外，实验结果还表明，不同类型的刺激会在模型响应过程的不同阶段引起错误。这些发现强调了需要改进安全机制，以在保持谨慎的同时实现上下文适当的响应，从而提高MLLMs在实际应用中的可靠性。
相关研究

近期的相关研究包括《GPT-3的缺陷：对话中的常识推理不足》、《基于多模态深度学习的图像描述生成研究综述》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问