智源研究院｜从“选项依赖”与“视觉读数”，重新思考多模态评测基准，周四直播

报告主题：从“选项依赖”与“视觉读数”，重新思考多模态评测基准

报告日期：03月26日（周四） 14:00-15:30

报告一、ReVeL

Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT

传统选择题评估（MCQA）易让模型通过“猜选项”获利，掩盖真实能力。ReVeL 框架将 MCQA 自动改写为“可验证的开放式问答”，用于训练与评测双端。通过规则与 LLM 混合验证确保评估严谨性。实验证明，基于 ReVeL 框架的强化学习能显著提升模型6% 的开放式任务表现，同时保持其选择题能力。

报告二、MeasureBench

Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench

仪表读数任务看似简单，但要求模型具备精细空间定位、刻度理解与数值映射能力。MeasureBench 构建了一个覆盖 26 类仪器、结合真实与合成数据的视觉测量评测基准，用于系统检验当前视觉语言模型的细粒度感知能力。实验表明，即使是最强模型，在真实集和合成集上的准确率也仅为 30.3% 和 26.1%。此外，作者基于合成数据进行了强化学习，发现该方法不仅能提升模型在合成域上的表现，也能改善真实场景结果，展示了合成数据和强化学习在细粒度视觉测量任务中的潜力。

报告嘉宾：

何哲琪，智源研究院研究员，毕业于北京大学王选所。研究兴趣主要集中在大模型评测，多模态大模型和具身智能。在CVPR，NeurIPS， ACL，AAAI，MM，PR等会议和期刊发表多篇表学术论文，申请专利10余项。

刘业圣，智源研究院与自动化所联培二年级博士，师从张家俊老师，本科毕业于武汉大学。研究方向聚焦于大语言模型评测，多模态大模型智能体及其强化学习方法。已经在CVPR、ICLR 、ACL等国际会议上发表多篇文章。

电脑端观看地址

更多热门活动

内容中包含的图片若涉及版权问题，请及时与我们联系删除

智源研究院｜从“选项依赖”与“视觉读数”，重新思考多模态评测基准，周四直播

评论列表

评论