ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs

向作者提问

NEW

简介

组合推理（CR）涉及理解属性、关系和单词顺序的重要性。最近的视觉语言模型（VLM），包括视觉编码器和大型语言模型（LLM）解码器，在此类推理任务中表现出了显着的熟练度。这引发了一个关键问题：VLM是否有效地解决了CR挑战？我们推测，现有的CR基准可能不足以推动现代VLM的边界，因为它们依赖于仅使用LLM的负文本生成管道。因此，所产生的负面结果要么出现在VLM的LLM解码器学习的自然语言分布之外，要么在相应的图像上下文中不太可能出现。为了解决这些限制，我们引入了ConMe - 一种组合推理基准和一种新的数据生成管道，利用VLM生成“难CR问答”。通过VLM彼此交流以共同暴露其弱点的新概念，我们的管道自主地生成、评估和选择具有挑战性的组合推理问题，建立了一个强大的CR基准，并随后进行了手动验证。我们的基准比先前的基准引起了值得注意的CR性能下降，高达33％，重新确立了即使对于最先进的VLM，也存在CR挑战。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决视觉-语言模型在组合推理方面的挑战，提出了一个新的基准测试ConMe，以评估现代视觉-语言模型的组合推理能力。
关键思路

通过使用视觉-语言模型相互对话来生成具有挑战性的组合推理问题，以便更好地评估现代视觉-语言模型的性能。
其它亮点

论文提出了一个新的基准测试ConMe，用于评估现代视觉-语言模型的组合推理能力；使用视觉-语言模型相互对话来生成具有挑战性的组合推理问题；实验结果表明，ConMe基准测试比先前的基准测试更具挑战性，能够检测出现代视觉-语言模型的弱点。
相关研究

最近的相关研究包括《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问