- 简介随着大型语言模型的成功,视觉语言模型(VLM)迅速发展。近年来,人们越来越努力地进行视觉指导调整,以扩展LLM的视觉输入,但缺乏对视觉语言预训练过程的深入研究,其中模型学习在两种模态上进行联合建模。在这项工作中,我们通过逐步可控的比较,通过增加LLM的方式朝向VLM,来研究VLM预训练的设计选项。我们提出了三个主要发现:(1)在预训练期间冻结LLM可以实现不错的零-shot性能,但缺乏上下文学习能力,需要解冻LLM;(2)交错的预训练数据是有益的,而仅有图像-文本对则不是最优的;(3)在指令微调期间,将仅文本指令数据重新混合到图像-文本数据中,不仅可以补救仅文本任务的退化,而且还可以提高VLM任务的准确性。通过增强的预训练配方,我们构建了VILA,一个视觉语言模型系列,在主要基准测试中始终优于最先进的模型,例如LLaVA-1.5,而没有花哨的东西。多模态预训练还有助于揭示VILA的吸引人的特性,包括多图像推理、增强上下文学习和更好的世界知识。
- 图表
- 解决问题论文旨在研究视觉语言模型(VLM)的预训练过程,探讨设计选项,并提出改进的预训练方法,以提高VLM的性能。
- 关键思路通过将大型语言模型(LLM)转化为VLM,探索冻结和解冻LLM对预训练效果的影响,研究交错式预训练数据和图像-文本对预训练数据的有效性,并提出重新混合文本数据和图像-文本数据的方法来提高VLM的性能。
- 其它亮点实验结果表明,VILA模型在主要基准测试中表现优异,多模态预训练还揭示了VILA的一些有趣特性,包括多图像推理、增强上下文学习和更好的世界知识。论文使用了开源数据集和代码。
- 近期的相关研究包括《Vision-and-Language Navigation: Interpreting Visually-Grounded Navigation Instructions in Real Environments》和《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》。
沙发等你来抢
去评论
评论
沙发等你来抢