标题:百度|ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphs (融合场景图知识的跨模态理解模型 ERNIE-ViL)

简介:我们提出了一种知识增强的方法ERNIE-ViL,结合了从中获得的结构化知识场景图,以学习视觉语言的联合表示。ERNIE-ViL试图建立详细的语义联系(对象,对象的属性以及对象之间的关系)跨视觉和语言,这对于视觉语言跨模态任务。利用场景图视觉场景,ERNIE-ViL构建场景图预测任务,即在预训练阶段的对象预测,属性预测和关系预测任务。具体来说,这些预测任务是通过预测来实现的场景图中不同类型的节点从句子。因此,ERNIE-ViL可以学习表征详细语义对齐方式的联合表示形式跨视觉和语言。经过大规模的预训练图像文本对齐的数据集,我们验证了ERNIE-ViL处理5个交叉模式的下游任务有效性。ERNIE-ViL在所有这些任务上均达到最先进的性能,并且以绝对的优势在VCR排行榜上排名第一,改善了3.7%。

下载地址:https://arxiv.org/pdf/2006.16934

内容中包含的图片若涉及版权问题,请及时与我们联系删除