Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench

2025年10月30日
  • 简介
    对人类而言,读取测量仪器十分轻松,且几乎不需要太多专业知识,但根据我们的初步评估发现,这对当前的视觉-语言模型(VLM)来说仍然是一个出人意料的难题。在本研究中,我们提出了MeasureBench,这是一个面向视觉测量读数的基准测试,涵盖多种类型测量设备的真实图像和合成图像,并配备了一个可扩展的数据生成流程。我们的流程能够程序化地生成特定类型的仪表,其视觉外观可控,从而在指针、刻度、字体、光照和背景杂乱程度等关键细节上实现大规模的多样化变化。在多个主流闭源和开源VLM上的评估结果表明,即使是当前最先进的前沿模型,在测量读数任务上也普遍存在困难。一种持续出现的失败模式是指示器定位不准:模型虽能识别数字或标签,却常常错误判断指针或对齐标记的关键位置,导致尽管文本推理看似合理,但数值结果却存在显著误差。我们还利用合成数据进行了基于强化学习的初步实验,发现在合成数据子集上效果令人鼓舞,但在真实世界图像上的表现则不尽如人意。我们的分析揭示了当前VLM在细粒度空间定位能力方面的一项根本性局限。我们希望这一资源能够推动未来在视觉支持下的数值理解以及VLM精确空间感知方面的进步,弥合“识别数字”与“测量世界”之间的差距。
  • 作者讲解·1
  • 图表
  • 解决问题
    当前视觉-语言模型(VLMs)在读取测量仪器(如指针式仪表、刻度尺等)时表现不佳,尤其是在精确定位指针或对齐标记的位置方面存在严重缺陷。尽管人类可以轻松完成这类任务且无需太多专业知识,但现有VLM在视觉测量读数任务中常因空间定位错误导致数值误读。这是一个尚未被充分研究的问题,尤其涉及细粒度的空间接地与数值理解的结合。
  • 关键思路
    提出MeasureBench——一个专注于视觉测量读数的基准测试,涵盖真实和合成图像,并构建了一个可扩展的数据合成管道,能够程序化生成具有可控外观变量(如指针位置、刻度、字体、光照、杂乱背景)的各类测量仪表图像。关键创新在于通过可控合成实现大规模、多样化的训练与评估数据生成,以系统性地暴露VLM在空间接地能力上的不足。
  • 其它亮点
    实验评估了多个主流闭源和开源VLM,在真实与合成数据上均表现出显著性能下降,尤其是指针定位失败导致大误差;发布了MeasureBench基准与合成管线,支持未来研究;初步尝试使用强化学习在合成数据上训练,虽在域内有效但泛化至真实图像有限,凸显域迁移挑战;强调了‘看得见数字’不等于‘能进行测量’这一根本差距,呼吁关注VLM的精细空间感知与视觉数值推理能力。
  • 相关研究
    1. 'Visual Spatial Reasoning in Vision-Language Models: A Survey', 2023 2. 'Fine-Grained Object Localization and Alignment in Real-World Scenes', CVPR 2022 3. 'Benchmarking Numeracy in Pretrained Vision-Language Models', ACL 2023 4. 'Synthetic Data for Scene Text Recognition: TextDiffuser and Beyond', ICCV 2023 5. 'Calibration as a Vision Task: Learning to Read Instruments', arXiv 2022
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问