Do Vision & Language Decoders use Images and Text equally? How Self-consistent are their Explanations?

简介

视觉语言模型（VLM）是目前在多模态任务上表现最好的架构之一。除了预测外，它们还可以产生解释，无论是在事后还是CoT设置中。然而，目前并不清楚它们在生成预测或解释时使用视觉和文本模态的程度。在这项工作中，我们调查了VLM在生成解释与提供答案时是否依赖不同的模态。我们还评估了VLM解码器在事后和CoT解释设置中的自我一致性，通过扩展现有的测试和测量方法来适用于VLM解码器。我们发现，VLM的自我一致性比LLM低。在所有测量任务中，VL解码器中的文本贡献要比图像贡献大得多。对于解释生成，图像的贡献显著大于答案生成。在CoT相对于事后解释设置中，这种差异更大。我们还提供了对目前最先进的VL解码器在VALSE基准测试上的最新基准测试，该测试迄今仅关注VL编码器。我们发现，VL解码器仍然在VALSE测试中遇到了大多数现象的困难。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究视觉语言模型（VLMs）在生成答案和解释时使用视觉和文本模态的差异，以及VLM解码器的自洽性。此外，对最新的VLM解码器在VALE基准测试上进行了评估。
关键思路

VLM解码器在生成解释时比生成答案时更多地依赖于图像模态，而文本贡献在所有测量任务中都比图像贡献大。VLM解码器的自一致性比LLMs低。
其它亮点

实验使用了VALE基准测试，发现VLM解码器仍然存在一些问题。论文提供了一个新的角度来研究VLMs的行为，并提出了对解释生成的扩展测试。
相关研究

近期的相关研究包括：《VisualBERT：用于视觉推理的联合视觉语言表示学习》、《ViLBERT：通过联合视觉和语言建模来理解图像内容》等。

Do Vision & Language Decoders use Images and Text equally? How Self-consistent are their Explanations?

提问交流

提问交流