Do Vision & Language Decoders use Images and Text equally? How Self-consistent are their Explanations?

2024年04月29日
  • 简介
    视觉语言模型(VLM)是目前在多模态任务上表现最好的架构之一。除了预测外,它们还可以产生解释,无论是在事后还是CoT设置中。然而,目前并不清楚它们在生成预测或解释时使用视觉和文本模态的程度。在这项工作中,我们调查了VLM在生成解释与提供答案时是否依赖不同的模态。我们还评估了VLM解码器在事后和CoT解释设置中的自我一致性,通过扩展现有的测试和测量方法来适用于VLM解码器。我们发现,VLM的自我一致性比LLM低。在所有测量任务中,VL解码器中的文本贡献要比图像贡献大得多。对于解释生成,图像的贡献显著大于答案生成。在CoT相对于事后解释设置中,这种差异更大。我们还提供了对目前最先进的VL解码器在VALSE基准测试上的最新基准测试,该测试迄今仅关注VL编码器。我们发现,VL解码器仍然在VALSE测试中遇到了大多数现象的困难。
  • 作者讲解
  • 图表
  • 解决问题
    研究视觉语言模型(VLMs)在生成答案和解释时使用视觉和文本模态的差异,以及VLM解码器的自洽性。此外,对最新的VLM解码器在VALE基准测试上进行了评估。
  • 关键思路
    VLM解码器在生成解释时比生成答案时更多地依赖于图像模态,而文本贡献在所有测量任务中都比图像贡献大。VLM解码器的自一致性比LLMs低。
  • 其它亮点
    实验使用了VALE基准测试,发现VLM解码器仍然存在一些问题。论文提供了一个新的角度来研究VLMs的行为,并提出了对解释生成的扩展测试。
  • 相关研究
    近期的相关研究包括:《VisualBERT:用于视觉推理的联合视觉语言表示学习》、《ViLBERT:通过联合视觉和语言建模来理解图像内容》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问