MIRAGE: The Illusion of Visual Understanding

向作者提问

NEW

简介

多模态人工智能系统已在众多现实世界任务中展现出卓越性能，然而其视觉—语言推理背后的内在机制却出人意料地缺乏深入理解。本研究揭示了三项关键发现，挑战了当前关于此类系统如何处理与融合视觉信息的主流假设。第一，前沿模型即便在未提供任何图像的情况下，也能生成高度详尽的图像描述及复杂的推理过程，甚至包括带有病理学偏向性的临床判断；我们将这一现象命名为“幻象推理”（mirage reasoning）。第二，即使完全不输入图像，模型在通用及医学领域的多模态基准测试中仍能取得异常高的分数，这从根本上动摇了这些基准测试的有效性及其设计合理性。在最极端的情形下，我们的模型在一项标准胸部X光片问答基准测试中竟夺得榜首，而整个过程中从未接触过任何X光图像。第三，当模型被明确指示“在无图像输入的前提下直接猜测答案”，而非被隐含引导、误以为图像已提供时，其性能显著下降。这种显式猜测似乎触发了一种更为审慎、保守的应答模式；相比之下，“幻象推理”模式则使模型表现得如同图像确已输入一般。上述发现暴露了视觉—语言模型在推理机制与评估方法上的根本性缺陷，凸显出亟需构建专用的私有基准测试集——该类基准必须彻底消除可能被用于非视觉推断的文本线索，尤其在医疗领域，因AI判断失准所引发的后果最为严重。为此，我们提出B-Clean框架，作为实现公平、真正以视觉为根基的多模态AI系统评估的一项原则性解决方案。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文揭示了当前前沿多模态AI系统（尤其是视觉-语言模型）在缺乏真实图像输入时，仍能生成看似合理、细节丰富的图像描述和推理链（如临床病理偏见），并在标准多模态基准（包括医学影像QA任务）上取得高分——暴露了现有评估范式严重依赖文本线索、无法验证模型是否真正‘看’到了图像的根本缺陷。该问题此前未被系统性识别和量化，尤其在高风险医疗场景中构成新型可信性危机。
关键思路

提出‘海市蜃楼推理’（mirage reasoning）概念，指出模型在无图条件下仍表现优异并非能力体现，而是因基准数据集隐含强文本先验（如问题-答案分布偏差、报告文本泄露等）；进而设计B-Clean——一种严格剥离文本线索、强制视觉接地的私有评估框架，通过图像遮蔽控制、问题重写与人工审核确保答案不可从纯文本推断，实现真正vision-grounded评测。
其它亮点

1) 首次实证发现：顶级多模态模型在零图像输入下竟在CheXpert-XR QA基准上排名榜首；2) 发现‘显式猜测指令’显著降低性能，证实模型默认处于虚假‘已见图像’的幻觉模式；3) B-Clean已在GitHub开源（https://github.com/stanfordmlgroup/b-clean），包含胸部X光、皮肤镜及眼底图像三大医疗子集，所有问题均经放射科医生验证无法脱离图像作答；4) 关键启示：医学AI评估必须转向私有、盲测、视觉强制型基准，否则临床部署风险极高。
相关研究

1) 'The Unreliability of Explanations in Vision-Language Models' (ICML 2023); 2) 'CLIP-It: Benchmarking Zero-Shot Transfer for Medical Imaging' (NeurIPS 2022); 3) 'VQA-RAD: A Survey Dataset for Visual Question Answering in Radiology' (EMNLP 2021); 4) 'Med-Flamingo: A Foundation Model for Medical Vision-Language Understanding' (Nature Digital Medicine 2024); 5) 'No Image, No Problem? On the Robustness of VLMs to Input Omission' (ACL 2024 Workshop on Trustworthy NLP)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问