作者:Thong Nguyen, Cong-Duy Nguyen, Xiaobao Wu,等

简介:本文是视觉语言预训练的综述调研。随着图像-文本对数据量的迅速增长和视觉和语言(V&L)任务的多样性,学者们在该研究领域引入了大量的深度学习模型。此外,近年来,迁移学习在计算机视觉的图像分类、目标检测等任务以及自然语言处理的问答、机器翻译等方面也取得了巨大的成功。继承迁移学习的精神, V&L 的研究工作在大规模数据集上设计了多种预训练技术,以提高下游任务的性能。本文的目的是对当代 V&L 预训练模型进行全面修订。特别是,作者对预训练方法进行分类和描述,以及最先进的视觉和语言预训练模型的总结。此外,还提供了训练数据集和下游任务列表,以进一步完善 V&L 预训练的观点。最后,作者决定进一步讨论未来研究的众多方向。

论文下载:https://arxiv.org/pdf/2207.01772

内容中包含的图片若涉及版权问题,请及时与我们联系删除