MIRAGE: The Illusion of Visual Understanding

2026年03月23日
  • 简介
    多模态人工智能系统已在众多现实世界任务中展现出卓越性能,然而其视觉—语言推理背后的内在机制却出人意料地缺乏深入理解。本研究揭示了三项关键发现,挑战了当前关于此类系统如何处理与融合视觉信息的主流假设。 第一,前沿模型即便在未提供任何图像的情况下,也能生成高度详尽的图像描述及复杂的推理过程,甚至包括带有病理学偏向性的临床判断;我们将这一现象命名为“幻象推理”(mirage reasoning)。 第二,即使完全不输入图像,模型在通用及医学领域的多模态基准测试中仍能取得异常高的分数,这从根本上动摇了这些基准测试的有效性及其设计合理性。在最极端的情形下,我们的模型在一项标准胸部X光片问答基准测试中竟夺得榜首,而整个过程中从未接触过任何X光图像。 第三,当模型被明确指示“在无图像输入的前提下直接猜测答案”,而非被隐含引导、误以为图像已提供时,其性能显著下降。这种显式猜测似乎触发了一种更为审慎、保守的应答模式;相比之下,“幻象推理”模式则使模型表现得如同图像确已输入一般。 上述发现暴露了视觉—语言模型在推理机制与评估方法上的根本性缺陷,凸显出亟需构建专用的私有基准测试集——该类基准必须彻底消除可能被用于非视觉推断的文本线索,尤其在医疗领域,因AI判断失准所引发的后果最为严重。为此,我们提出B-Clean框架,作为实现公平、真正以视觉为根基的多模态AI系统评估的一项原则性解决方案。
  • 作者讲解
  • 图表
  • 解决问题
    论文揭示了当前前沿多模态AI系统(尤其是视觉-语言模型)在缺乏真实图像输入时,仍能生成看似合理、细节丰富的图像描述和推理链(如临床病理偏见),并在标准多模态基准(包括医学影像QA任务)上取得高分——暴露了现有评估范式严重依赖文本线索、无法验证模型是否真正‘看’到了图像的根本缺陷。该问题此前未被系统性识别和量化,尤其在高风险医疗场景中构成新型可信性危机。
  • 关键思路
    提出‘海市蜃楼推理’(mirage reasoning)概念,指出模型在无图条件下仍表现优异并非能力体现,而是因基准数据集隐含强文本先验(如问题-答案分布偏差、报告文本泄露等);进而设计B-Clean——一种严格剥离文本线索、强制视觉接地的私有评估框架,通过图像遮蔽控制、问题重写与人工审核确保答案不可从纯文本推断,实现真正vision-grounded评测。
  • 其它亮点
    1) 首次实证发现:顶级多模态模型在零图像输入下竟在CheXpert-XR QA基准上排名榜首;2) 发现‘显式猜测指令’显著降低性能,证实模型默认处于虚假‘已见图像’的幻觉模式;3) B-Clean已在GitHub开源(https://github.com/stanfordmlgroup/b-clean),包含胸部X光、皮肤镜及眼底图像三大医疗子集,所有问题均经放射科医生验证无法脱离图像作答;4) 关键启示:医学AI评估必须转向私有、盲测、视觉强制型基准,否则临床部署风险极高。
  • 相关研究
    1) 'The Unreliability of Explanations in Vision-Language Models' (ICML 2023); 2) 'CLIP-It: Benchmarking Zero-Shot Transfer for Medical Imaging' (NeurIPS 2022); 3) 'VQA-RAD: A Survey Dataset for Visual Question Answering in Radiology' (EMNLP 2021); 4) 'Med-Flamingo: A Foundation Model for Medical Vision-Language Understanding' (Nature Digital Medicine 2024); 5) 'No Image, No Problem? On the Robustness of VLMs to Input Omission' (ACL 2024 Workshop on Trustworthy NLP)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问