
报告主题:从“选项依赖”与“视觉读数”,重新思考多模态评测基准
报告日期:03月26日(周四) 14:00-15:30
Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT
传统选择题评估(MCQA)易让模型通过“猜选项”获利,掩盖真实能力。ReVeL 框架将 MCQA 自动改写为“可验证的开放式问答”,用于训练与评测双端。通过规则与 LLM 混合验证确保评估严谨性。实验证明,基于 ReVeL 框架的强化学习能显著提升模型6% 的开放式任务表现,同时保持其选择题能力。
报告二、MeasureBench
Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench
仪表读数任务看似简单,但要求模型具备精细空间定位、刻度理解与数值映射能力。MeasureBench 构建了一个覆盖 26 类仪器、结合真实与合成数据的视觉测量评测基准,用于系统检验当前视觉语言模型的细粒度感知能力。实验表明,即使是最强模型,在真实集和合成集上的准确率也仅为 30.3% 和 26.1%。此外,作者基于合成数据进行了强化学习,发现该方法不仅能提升模型在合成域上的表现,也能改善真实场景结果,展示了合成数据和强化学习在细粒度视觉测量任务中的潜力。
报告嘉宾:
何哲琪,智源研究院研究员,毕业于北京大学王选所。研究兴趣主要集中在大模型评测,多模态大模型和具身智能。在CVPR,NeurIPS, ACL,AAAI,MM,PR等会议和期刊发表多篇表学术论文,申请专利10余项。

刘业圣,智源研究院与自动化所联培二年级博士,师从张家俊老师,本科毕业于武汉大学。研究方向聚焦于大语言模型评测,多模态大模型智能体及其强化学习方法。已经在CVPR、ICLR 、ACL等国际会议上发表多篇文章。



内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢