Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data

向作者提问

NEW

简介

视觉-语言模型（VLMs）最近取得了显著进展，但开源指令数据的规模和质量有限，导致其性能与闭源模型相比存在差距。在这项工作中，我们通过引入Infinity-MM来解决这一限制，这是一个包含4000万个样本的大规模多模态指令数据集，经过严格的质量过滤和去重处理。我们还提出了一种基于开源VLMs的合成指令生成方法，利用详细的图像注释和多样化的提问生成。利用这些数据，我们训练了一个拥有20亿参数的VLM，即Aquila-VL-2B，在同规模模型中达到了最先进的（SOTA）性能。这表明，扩展指令数据和生成合成数据可以显著提高开源模型的性能。
作者讲解·4
- 讲解视频(1)
- 相关报道(3)
图表
解决问题

该论文旨在解决开放源代码视觉-语言模型（VLMs）由于缺乏大规模和高质量的指令数据而导致性能落后于闭源模型的问题。这是一个在开放源代码社区中广泛存在的问题。
关键思路

论文的关键思路是通过创建一个大规模、高质量的多模态指令数据集Infinity-MM，并提出一种基于开放源代码VLMs的合成指令生成方法，利用详细的图像注释和多样的问题生成技术，来提升开放源代码VLMs的性能。这一思路在现有研究基础上，不仅增加了数据规模，还提高了数据质量，从而显著提升了模型性能。
其它亮点

论文的亮点包括：1) 创建了包含4000万样本的大型多模态指令数据集Infinity-MM；2) 提出了合成指令生成方法，丰富了训练数据；3) 训练了一个20亿参数的VLM模型Aquila-VL-2B，达到了同类规模模型的最先进水平；4) 数据集和模型均开源，为后续研究提供了宝贵资源。未来可以进一步探索更大规模的数据集和更复杂的模型架构。
相关研究

近期在视觉-语言模型领域，相关的研究还包括：1)《Flamingo: A Visual Language Model for Multimodal Instruction Following》；2)《BLIP: Bootstrapping Language-Image Pre-training with Unified Vision-Language Representation》；3)《M6: A Large-Scale Pre-trained Model for Multi-modal Understanding and Generation》。这些研究同样关注于提高多模态模型的性能，但主要集中在模型架构和预训练策略上，而本论文则重点在于数据集的构建和合成数据的生成。

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问