标题:特伦托大学、哥本哈根大学|Vision-and-Language or Vision-for-Language? On Cross-Modal Influence in Multimodal Transformers(视觉与语言还是视觉语言? 多模态变换器中的跨模态影响分析)

作者:Stella Frank, Desmond Elliott

简介:本文研究了多模态中各模态缺失时的模型表现。预训练的视觉和语言BERT模型旨在学习结合来自两种模态的信息的表示。作者提出了一种基于跨模态输入的诊断方法,消融评估这些模型实际上整合了跨模态信息。这种方法从一种模态涉及消融输入,完全或选择性地基于跨模态接地对齐,并评估模型预测在另一种模式下的表现。模型效果是由特定于模态的反映模型预训练目标的任务(例如掩码语言建模文本)。使用两种模态的跨模态表示构建的模型,当模态缺少一项输入时,多模态模型会表现得更差。作者发现最近提出的模型在视觉上预测文本任务上比文本预测图像更困难,表明这些模型不是对称的交叉模态。

论文下载:https://arxiv.org/pdf/2109.04448v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除