多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

论文链接：https://arxiv.org/pdf/2210.09263.pdf

本文综述了近年来发展起来的多模态智能视觉语言预训练(VLP)方法。我们将这些方法分为三类: (i) 用于图像-文本任务的VLP，如图像标题、图像-文本检索、视觉问题回答和视觉基础; (ii) 用于核心计算机视觉任务的VLP，如(开集)图像分类、目标检测和分割;以及 (iii) 视频文本任务的VLP，如视频字幕、视频文本检索和视频问答。对于每个类别，都对最先进的方法进行了全面的回顾，并使用特定的系统和模型作为案例研究，讨论已经取得的进展和仍然面临的挑战。对于每个类别，讨论了研究界正在积极探索的高级主题，如大基础模型、统一建模、上下文内少样本学习、知识、鲁棒性和现实中的计算机视觉等。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

多模态预训练到哪了？微信最新《视觉语言预训练:基础、最新进展和未来趋势》，102页阐述VLP进展

评论列表

评论