Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench

向作者提问

NEW

简介

对人类而言，读取测量仪器十分轻松，且几乎不需要太多专业知识，但根据我们的初步评估发现，这对当前的视觉-语言模型（VLM）来说仍然是一个出人意料的难题。在本研究中，我们提出了MeasureBench，这是一个面向视觉测量读数的基准测试，涵盖多种类型测量设备的真实图像和合成图像，并配备了一个可扩展的数据生成流程。我们的流程能够程序化地生成特定类型的仪表，其视觉外观可控，从而在指针、刻度、字体、光照和背景杂乱程度等关键细节上实现大规模的多样化变化。在多个主流闭源和开源VLM上的评估结果表明，即使是当前最先进的前沿模型，在测量读数任务上也普遍存在困难。一种持续出现的失败模式是指示器定位不准：模型虽能识别数字或标签，却常常错误判断指针或对齐标记的关键位置，导致尽管文本推理看似合理，但数值结果却存在显著误差。我们还利用合成数据进行了基于强化学习的初步实验，发现在合成数据子集上效果令人鼓舞，但在真实世界图像上的表现则不尽如人意。我们的分析揭示了当前VLM在细粒度空间定位能力方面的一项根本性局限。我们希望这一资源能够推动未来在视觉支持下的数值理解以及VLM精确空间感知方面的进步，弥合“识别数字”与“测量世界”之间的差距。
作者讲解·1
- 讲解视频(1)
- 相关报道
图表
解决问题

当前视觉-语言模型（VLMs）在读取测量仪器（如指针式仪表、刻度尺等）时表现不佳，尤其是在精确定位指针或对齐标记的位置方面存在严重缺陷。尽管人类可以轻松完成这类任务且无需太多专业知识，但现有VLM在视觉测量读数任务中常因空间定位错误导致数值误读。这是一个尚未被充分研究的问题，尤其涉及细粒度的空间接地与数值理解的结合。
关键思路

提出MeasureBench——一个专注于视觉测量读数的基准测试，涵盖真实和合成图像，并构建了一个可扩展的数据合成管道，能够程序化生成具有可控外观变量（如指针位置、刻度、字体、光照、杂乱背景）的各类测量仪表图像。关键创新在于通过可控合成实现大规模、多样化的训练与评估数据生成，以系统性地暴露VLM在空间接地能力上的不足。
其它亮点

实验评估了多个主流闭源和开源VLM，在真实与合成数据上均表现出显著性能下降，尤其是指针定位失败导致大误差；发布了MeasureBench基准与合成管线，支持未来研究；初步尝试使用强化学习在合成数据上训练，虽在域内有效但泛化至真实图像有限，凸显域迁移挑战；强调了‘看得见数字’不等于‘能进行测量’这一根本差距，呼吁关注VLM的精细空间感知与视觉数值推理能力。
相关研究

1. 'Visual Spatial Reasoning in Vision-Language Models: A Survey', 2023 2. 'Fine-Grained Object Localization and Alignment in Real-World Scenes', CVPR 2022 3. 'Benchmarking Numeracy in Pretrained Vision-Language Models', ACL 2023 4. 'Synthetic Data for Scene Text Recognition: TextDiffuser and Beyond', ICCV 2023 5. 'Calibration as a Vision Task: Learning to Read Instruments', arXiv 2022

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问