图片

论文链接:https://arxiv.org/abs/2302.10035

随着对广义深度模型的迫切需求,许多预训练大模型被提出,如BERT、ViT、GPT等。受这些模型在单一领域(如计算机视觉和自然语言处理)成功的启发,多模态预训练大模型近年来也引起了越来越多的关注。在这项工作中,我们对这些模型进行了全面的综述,希望本文能够提供新的见解,帮助新的研究人员跟踪最前沿的工作。具体而言,我们首先通过回顾传统深度学习、自然语言过程、计算机视觉和语音中的预训练工作,介绍了多模态预训练的背景;然后,我们介绍了多模态预训练模型(MM-PTMs)的任务定义、主要挑战和优势,并讨论了MM-PTMs,重点是数据、目标、网络架构和知识增强的预训练。在此之后,我们介绍了用于大规模MM-PTMs验证的下游任务,包括生成、分类和回归任务。我们还对典型下游任务的模型参数和结果进行了可视化和分析。最后,我们指出了本课题可能的研究方向,对今后的工作有所裨益。此外,我们维护了一个持续更新的大规模预训练多模态大模型的论文列表:https://github.com/wangxiao5791509/MultiModal BigModels survey.

内容中包含的图片若涉及版权问题,请及时与我们联系删除