【论文标题】How Transferable are Reasoning Patterns in VQA? 【作者团队】Corentin Kervadec, Theo Jaunet, Grigory Antipov, Moez Baccouche, Romain Vuillemot, Christian Wolf 【发表时间】2021/04/08 【机构】法国应用科学研究院 【论文链接】https://arxiv.org/abs/2104.03656 【代码链接】https://reasoningpatterns.github.io/

【推荐理由】 本文出自法国应用科学研究院,作者设计了一种标准的视觉任务,通过注意力机制学习视觉中的不确定性,对视觉推理模式的可迁移性进行了深入分析,并且提供了一种公开的可视化工具。

众所周知,在视觉问答(VQA)任务中,模型往往会利用数据集中的偏置来寻找推理捷径,而不会进行高级推理。经典的方法会通除去训练数据中的偏置,或想模型中添加检测并移除偏置的分支来解决该问题。 在本文中,坐着认为视觉的不确定性是阻碍成功学习视觉和语言认为中的推理的主要因素。本文作者提出在标准视觉任务中学习注意力机制,并将其与目前最优的基于 Transformer 的模型进行对比。本文对推理模式进行了深入地分析,并进行了可视化。作者将推理模式从标准模型迁移到目前最优的基于 Transformer 的 VQA 模型,并通过调优获取标准的到噪声视觉输入,从而利用上述结果。在实验中,作者发现本文提出的模型的整体精度优于 SOTA 模型。

图 1:视觉输入中的噪声和不确定性是 VQA 中的主要瓶颈。

内容中包含的图片若涉及版权问题,请及时与我们联系删除