图片

论文链接:https://arxiv.org/pdf/2210.09263.pdf

本文综述了近年来发展起来的多模态智能视觉语言预训练(VLP)方法。我们将这些方法分为三类: (i) 用于图像-文本任务的VLP,如图像标题、图像-文本检索、视觉问题回答和视觉基础; (ii) 用于核心计算机视觉任务的VLP,如(开集)图像分类、目标检测和分割;以及 (iii) 视频文本任务的VLP,如视频字幕、视频文本检索和视频问答。对于每个类别,都对最先进的方法进行了全面的回顾,并使用特定的系统和模型作为案例研究,讨论已经取得的进展和仍然面临的挑战。对于每个类别,讨论了研究界正在积极探索的高级主题,如大基础模型、统一建模、上下文内少样本学习、知识、鲁棒性和现实中的计算机视觉等。

内容中包含的图片若涉及版权问题,请及时与我们联系删除