- 简介大型多模型(LMMs)在单图像视觉语言任务中表现出色。然而,它们解决多图像视觉语言任务的能力仍有待提高。现有的LMMs如OpenFlamingo、Emu2、Idefics通过在网络上预先训练数亿个嘈杂的交错图像文本数据来获得它们的多图像能力,这既不高效也不有效。本文旨在通过使用学术级资源进行指令调整来构建强大的多图像LMMs。因此,我们精心构建了包含721K个多图像指令数据的Mantis-Instruct,以训练一系列模型Mantis。指令调整赋予Mantis不同的多图像技能,如共指、比较、推理和时间理解。我们在五个多图像基准测试和七个单图像基准测试上评估了Mantis。Mantis-SigLIP可以在所有多图像基准测试上实现SoTA结果,并击败最强的多图像基线Idefics2-8B,平均超过11个绝对点。值得注意的是,Idefics2-8B是在1.4亿个交错的多图像数据上预先训练的,比Mantis-Instruct大200倍。我们观察到Mantis在保留和保留外基准测试上表现同样出色,这表明它的泛化能力。值得注意的是,我们发现Mantis甚至可以在多图像基准测试上与GPT-4V的性能相匹配。我们进一步评估了Mantis在单图像基准测试上的表现,并证明Mantis在与CogVLM和Emu2相当的单图像性能方面也保持着强大的表现。我们的结果表明,多图像能力不一定是通过大规模预训练获得的,而是可以通过低成本的指令调整获得。我们的工作提供了改进LMMs多图像能力的新视角。
-
- 图表
- 解决问题本篇论文旨在通过使用学术级资源进行指令调整,构建强大的多图像LMMs,以提高其解决多图像视觉语言任务的能力。
- 关键思路通过使用Mantis-Instruct的721K个多图像指令数据对Mantis进行指令调整,赋予其不同的多图像技能,如共同参照、比较、推理和时间理解。这种指令调整的方法可以提高LMMs的多图像能力,而无需进行大规模的预训练。
- 其它亮点Mantis在五个多图像基准测试和七个单图像基准测试中表现出色,Mantis-SigLIP在所有多图像基准测试中均可以达到SoTA结果,并且比最强的多图像基线Idefics2-8B平均高出11个绝对点。Mantis在保持强大的单图像性能的同时,也具有良好的泛化能力。此外,Mantis甚至可以与GPT-4V在多图像基准测试上匹配性能。
- 最近的相关研究包括OpenFlamingo、Emu2和Idefics等LMMs,它们通过在网络上预训练数亿个嘈杂的交错图像文本数据来获得多图像能力。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流