- 简介组合推理(CR)涉及理解属性、关系和单词顺序的重要性。最近的视觉语言模型(VLM),包括视觉编码器和大型语言模型(LLM)解码器,在此类推理任务中表现出了显着的熟练度。这引发了一个关键问题:VLM是否有效地解决了CR挑战?我们推测,现有的CR基准可能不足以推动现代VLM的边界,因为它们依赖于仅使用LLM的负文本生成管道。因此,所产生的负面结果要么出现在VLM的LLM解码器学习的自然语言分布之外,要么在相应的图像上下文中不太可能出现。为了解决这些限制,我们引入了ConMe - 一种组合推理基准和一种新的数据生成管道,利用VLM生成“难CR问答”。通过VLM彼此交流以共同暴露其弱点的新概念,我们的管道自主地生成、评估和选择具有挑战性的组合推理问题,建立了一个强大的CR基准,并随后进行了手动验证。我们的基准比先前的基准引起了值得注意的CR性能下降,高达33%,重新确立了即使对于最先进的VLM,也存在CR挑战。
-
- 图表
- 解决问题论文旨在解决视觉-语言模型在组合推理方面的挑战,提出了一个新的基准测试ConMe,以评估现代视觉-语言模型的组合推理能力。
- 关键思路通过使用视觉-语言模型相互对话来生成具有挑战性的组合推理问题,以便更好地评估现代视觉-语言模型的性能。
- 其它亮点论文提出了一个新的基准测试ConMe,用于评估现代视觉-语言模型的组合推理能力;使用视觉-语言模型相互对话来生成具有挑战性的组合推理问题;实验结果表明,ConMe基准测试比先前的基准测试更具挑战性,能够检测出现代视觉-语言模型的弱点。
- 最近的相关研究包括《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流