悉尼大学 | 视觉和语言预训练模型：调查

论文标题：Vision-and-Language Pretrained Models: A Survey

作者单位：悉尼大学& IDEA

预训练模型在计算机视觉 (CV) 和自然语言处理 (NLP) 方面都取得了巨大成功。这一进展通过将视觉和语言内容输入多层转换器视觉语言预训练模型 (VLPM) 来学习视觉和语言预训练的联合表示。在本文中，我们概述了 VLPM 在生成视觉和语言的联合表示方面取得的主要进展。作为准备工作，我们简要描述了 VLPM 的一般任务定义和遗传架构。我们首先讨论语言和视觉数据的编码方法，然后以主流的VLPM结构为核心内容。我们进一步总结了几个基本的预训练和微调策略。最后，我们强调了 CV 和 NLP 研究人员的三个未来方向，以提供有见地的指导。