NEW

The Illusion of Readiness: Stress Testing Large Frontier Models on Multimodal Medical Benchmarks

Yu Gu ,

Jingjing Fu ,

Xiaodong Liu ,

Jeya Maria Jose Valanarasu ,

Noel CF Codella ,

Reuben Tan ,

Qianchu Liu ,

Ying Jin ,

Sheng Zhang ,

Jinyu Wang ,

Rui Wang ,

Lei Song ,

Guanghui Qin ,

Naoto Usuyama ,

Cliff Wong ,

Hao Cheng ,

Hohin Lee ,

Praneeth Sanapathi ,

Sarah Hilado ,

Jiang Bian ,

Javier Alvarez-Valle ,

Mu Wei ,

Khalil Malik ,

Jianfeng Gao ,

Eric Horvitz ,

Matthew P Lungren ,

Hoifung Poon ,

Paul Vozila

热度 99

2025年09月22日

简介

像GPT-5这样的大型前沿模型如今在医学基准测试中取得了顶尖分数。但我们的压力测试却揭示了另一番景象。当前的主流系统常常在关键输入（例如图像）缺失的情况下仍能猜对答案，在提示语发生微小变动时便改变回答，并编造出看似合理实则存在缺陷的推理过程。这些问题并非偶然故障，而是暴露出现有基准测试更看重应试技巧而非真正的医学理解能力。我们评估了六款旗舰模型在六个广泛使用的基准测试中的表现，发现高分榜单背后隐藏着模型的脆弱性和走捷径式的学习行为。通过由临床医生指导的评分标准评估，我们发现这些基准测试实际衡量的内容差异巨大，却被当作可互换的指标使用，从而掩盖了各种失败模式。我们警示，医学基准测试得分并不能直接反映模型在现实场景中的准备程度。如果我们希望人工智能在医疗领域赢得信任，就必须超越单纯的排行榜胜利，要求系统在稳健性、严谨推理以及与真实医疗需求的契合度方面承担起责任。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

当前大型AI模型在医疗基准测试中取得高分，但这些分数可能无法真实反映其在临床实践中的可靠性。论文试图揭示这些高分背后存在的脆弱性问题，例如模型依赖捷径学习、对输入变化敏感、生成看似合理但错误的推理等。这些问题表明现有医疗AI基准测试更倾向于奖励‘应试技巧’而非真正的医学理解能力。这是一个重要且较新的问题，随着AI在医疗领域的应用加深，评估方式的有效性变得尤为关键。
关键思路

通过设计压力测试（stress tests）来暴露主流大模型在医疗场景下的非鲁棒行为，并结合临床医生指导的评分标准，系统分析多个流行医疗基准实际测量的内容差异。论文提出：高基准分数不应被等同于临床可用性，必须从稳健性、推理质量和与真实医疗需求的一致性角度重新评估AI系统。
其它亮点

研究评估了六个旗舰级大模型（如GPT-4、GPT-5级别系统）在六个广泛使用的医疗基准上的表现；引入了去除关键输入（如图像）和微小提示扰动的压力测试方法；发现模型常在缺乏关键信息时仍‘猜测正确’，或因提示词微调而翻转答案；采用由临床医生参与制定的评分细则进行深入分析；实验显示不同基准测评的能力维度差异巨大却被混用；强调需建立更贴近真实医疗场景的评估体系；未提及开源代码，数据集基于现有公开医疗基准任务。
相关研究

1. ‘Measuring Medical Knowledge in Language Models: A Systematic Review’ 2. ‘On the Robustness of Medical AI Benchmarks’ 3. ‘Large Language Models Encode Clinical Knowledge’ by Singhal et al. (Google, 2023) 4. ‘Assessing the Capabilities of LLMs as Simulated Patients’ 5. ‘Challenges in Benchmarking AI for Healthcare’ 6. ‘Do Medical Benchmarks Measure Real-World Performance?’

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问