Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts

2025年11月06日
  • 简介
    可靠的基准测试对于评估多模态大语言模型(MLLMs)至关重要。然而,我们发现,许多模型即使不具备强大的视觉理解能力,也能在大量多模态基准测试中取得优异成绩,其原因在于它们利用了数据中的偏差、语言先验知识以及表面模式。这一问题在那些本应依赖视觉输入的以视觉为中心的基准测试中尤为突出。为此,我们提出了一项基准设计的诊断原则:如果一个基准可以被“钻空子”,那么它终将被钻空子。因此,设计者应率先尝试“攻破”自己的基准测试,通过系统的诊断与去偏方法,识别并减轻其中非视觉性的偏差。有效的诊断需要直接“在测试集上训练”——即深入探测已发布的测试集中存在的内在且可被利用的模式。 我们通过两个组成部分来落实这一标准。首先,我们采用一种“测试集压力测试”(Test-set Stress-Test, TsT)方法,评估基准对非视觉捷径的易感性。我们的主要诊断工具是在测试集的非视觉文本输入上,通过k折交叉验证的方式微调一个强大的大语言模型,以揭示模型可能利用的捷径路径,并为每个样本分配一个偏差分数 $s(x)$。此外,我们还辅以一种基于随机森林的轻量级诊断方法,使用人工设计的特征进行快速、可解释的审计。其次,我们通过“迭代偏差剪枝”(Iterative Bias Pruning, IBP)流程,过滤掉高偏差样本,从而实现对基准测试的去偏处理。我们将该框架应用于四个现有基准——VSI-Bench、CV-Bench、MMMU 和 VideoMME,结果揭示了其中普遍存在的非视觉偏差。作为案例研究,我们应用完整的框架构建了去偏版本的 VSI-Bench-Debiased,实验证明,新版本显著降低了仅凭非视觉信息即可解答的问题比例,且在有无视觉输入情况下的性能差距更大,表明其对真实视觉理解能力的要求更高。
  • 作者讲解
  • 图表
  • 解决问题
    当前多模态大语言模型(MLLMs)的视觉理解能力评估存在严重问题:许多所谓的视觉基准测试实际上可以被仅依赖文本线索的语言模型‘走捷径’解决,暴露出强烈的非视觉偏差。这使得模型即使缺乏真实视觉理解也能在基准上表现良好,尤其影响那些本应依赖视觉输入的视觉中心型任务。该问题揭示了现有基准的脆弱性,是一个亟需系统性诊断和修复的新挑战。
  • 关键思路
    提出‘如果基准可被利用,则必将被利用’的设计原则,倡导研究者主动‘攻击’自己的基准。核心方法包括两部分:一是通过‘测试集压力测试’(TsT),用纯文本输入在测试集上微调大语言模型并结合随机森林分析,量化每一样本的非视觉偏差得分;二是采用‘迭代偏差剪枝’(IBP)去除高偏差样本,从而构建更鲁棒、真正需要视觉信息的去偏见基准。
  • 其它亮点
    创新性地提出‘训练在测试集上’作为诊断手段,直接暴露测试集内在偏差;在VSI-Bench、CV-Bench、MMMU、VideoMME四个主流基准上验证了广泛存在的非视觉可解性;成功构建VSI-Bench-Debiased,实验证明其显著降低语言模型仅凭文本的性能,拉大视觉盲与视觉模型之间的差距;提供了可解释的偏差评分机制,支持透明审计;代码与去偏数据集已开源,推动社区建立更可信的评估标准。
  • 相关研究
    1. Can Your Vision Assistant Truly See? Benchmarking the Visual Understanding of Large Vision-Language Models 2. Evaluating Large Language Models Trained on Code 3. On the Evaluation of Vision-Language Models 4. Measuring Massive Multitask Language Understanding 5. ObjectHallusion: A Large-scale Benchmark for Evaluating Object-level Hallucinations in MLLMs
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问