- 简介近年来,出现了大量的大型多模态模型(LMMs),可以有效地解决单图像视觉语言任务。然而,它们解决多图像视觉语言任务的能力还有待提高。现有的多图像LMMs(例如OpenFlamingo、Emu、Idefics等)大多通过在数亿个来自网络的嘈杂交错的图像文本数据上进行预训练来获得它们的多图像能力,这既不高效也不有效。本文旨在通过使用学术级资源进行指令调整来构建强大的多图像LMMs。因此,我们精心构建了包含14个多图像数据集的721K个实例的Mantis-Instruct。我们设计Mantis-Instruct以涵盖不同的多图像技能,如共指、推理、比较、时间理解等。我们将Mantis-Instruct与几个单图像视觉语言数据集相结合,以训练我们的模型Mantis来处理任何交错的图像文本输入。我们在五个多图像基准测试和八个单图像基准测试上评估了训练后的Mantis。尽管只需要学术级资源(即16xA100-40G上的36小时),Mantis-8B可以在所有多图像基准测试上实现最先进的性能,并击败现有的最佳多图像LMM Idefics2-8B平均9个绝对点。我们观察到Mantis在保留和保持评估基准测试上表现同样出色。我们进一步评估了Mantis在单图像基准测试上的表现,并证明Mantis可以保持与CogVLM和Emu2相当的强大单图像性能。我们的结果特别令人鼓舞,因为它表明,低成本的指令调整确实比密集的预训练更有效,可以构建出更好的多图像LMMs。
-
- 图表
- 解决问题本论文旨在通过使用学术级别的资源进行指令调整,构建强大的多图像LMMs,以解决多图像视觉语言任务的问题。
- 关键思路通过使用Mantis-Instruct数据集和几个单图像视觉语言数据集,结合指令调整的方法,训练模型Mantis来处理任何交错的图像文本输入。实现了低成本指令调整比密集的预训练更有效的多图像LMMs的构建。
- 其它亮点论文构建了Mantis-Instruct数据集,包含721K个实例,涵盖了不同的多图像技能,如共指、推理、比较和时间理解。使用了多个数据集进行实验评估,实验结果表明,Mantis-8B在所有多图像基准测试中均实现了最先进的性能,并击败了现有的最佳多图像LMM Idefics2-8B平均9个绝对点。实验结果表明,使用低成本的指令调整方法可以比密集的预训练更有效地构建多图像LMMs。
- 在最近的研究中,已经有一些相关的研究进行,例如OpenFlamingo、Emu、Idefics等多图像LMMs。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流