- 简介视觉语言模型(VLM)是目前在多模态任务上表现最好的架构之一。除了预测外,它们还可以产生解释,无论是在事后还是CoT设置中。然而,目前并不清楚它们在生成预测或解释时使用视觉和文本模态的程度。在这项工作中,我们调查了VLM在生成解释与提供答案时是否依赖不同的模态。我们还评估了VLM解码器在事后和CoT解释设置中的自我一致性,通过扩展现有的测试和测量方法来适用于VLM解码器。我们发现,VLM的自我一致性比LLM低。在所有测量任务中,VL解码器中的文本贡献要比图像贡献大得多。对于解释生成,图像的贡献显著大于答案生成。在CoT相对于事后解释设置中,这种差异更大。我们还提供了对目前最先进的VL解码器在VALSE基准测试上的最新基准测试,该测试迄今仅关注VL编码器。我们发现,VL解码器仍然在VALSE测试中遇到了大多数现象的困难。
-
- 图表
- 解决问题研究视觉语言模型(VLMs)在生成答案和解释时使用视觉和文本模态的差异,以及VLM解码器的自洽性。此外,对最新的VLM解码器在VALE基准测试上进行了评估。
- 关键思路VLM解码器在生成解释时比生成答案时更多地依赖于图像模态,而文本贡献在所有测量任务中都比图像贡献大。VLM解码器的自一致性比LLMs低。
- 其它亮点实验使用了VALE基准测试,发现VLM解码器仍然存在一些问题。论文提供了一个新的角度来研究VLMs的行为,并提出了对解释生成的扩展测试。
- 近期的相关研究包括:《VisualBERT:用于视觉推理的联合视觉语言表示学习》、《ViLBERT:通过联合视觉和语言建模来理解图像内容》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流