让机器做出与人类相似的反应一直是 AI 研究不懈追求的目标。为了让机器具有感知和思考的能力,研究人员进行了一系列相关研究,如人脸识别、阅读理解和人机对话,通过这些任务训练和评估机器在特定方面的智能。一般来讲,领域专家通过手工构建标准数据集,然后在这些数据集上训练和评估相关模型。然而,由于相关技术的限制,训练模型往往需要大量的标注数据,以获得更好、更强大的模型。
基于 Transformer 架构的预训练模型缓解了这个问题。它们首先通过自监督学习进行预训练,从大规模未标记数据中训练模型,从而学习通用表示。它们在下游任务上仅使用少量手动标记的数据进行微调就能取得令人惊讶的效果。自 BERT 被应用于 NLP 任务以来,各种预训练模型在单模态领域快速发展,例如 Vision Transformer (ViT) 和 Wave2Vec。大量工作表明它们有利于下游单模态任务,并避免从头开始训练新模型。
与单模态领域类似,多模态领域也存在高质量标注数据较少的问题。我们不禁会问,上述预训练方法能否应用于多模态任务?研究人员已经对这个问题进行了探索并取得了重大进展。
在本文中,来自中国科学院自动化研究所、中国科学院大学的研究者调查了视觉 - 语言预训练(vision-language pre-training,VLP)最新进展和新领域,包括图像 - 文本预训练和视频 - 文本预训练。VLP 通过对大规模数据的预训练来学习不同模态之间语义对应关系。例如,在图像 - 文本预训练中,研究者期望模型将文本中的狗与图像中的狗外观相关联。在视频 - 文本预训练中,研究者期望模型将文本中的对象 / 动作映射到视频中的对象 / 动作。
论文地址:https://arxiv.org/pdf/2202.09061.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢