ShareGPT4V: Improving Large Multi-Modal Models with Better Captions

简介

在大型多模态模型（LMMs）领域中，高效的模态对齐对于提高模型性能至关重要，但往往受到高质量图像文本数据稀缺的限制。为了解决这一瓶颈，我们引入了ShareGPT4V数据集，这是一个开创性的大规模资源，包含120万个高度描述性的字幕，超越了现有数据集在多样性和信息内容方面的限制，涵盖了世界知识、物体属性、空间关系和美学评价。具体来说，ShareGPT4V源于从先进的GPT4-Vision中收集的10万个高质量字幕，并通过在此子集上训练出的优秀字幕模型扩展到120万个。ShareGPT4V首先展示了其在监督微调（SFT）阶段的有效性，通过用我们高质量字幕的子集替换现有SFT数据集中等量的详细字幕，显著提高了MME和MMBench基准测试中的LLaVA-7B、LLaVA-1.5-13B和Qwen-VL-Chat-7B等LMMs的性能，分别获得了222.8/22.0/22.3和2.7/1.3/1.5的增益。我们进一步将ShareGPT4V数据集应用于预训练和SFT阶段，获得了ShareGPT4V-7B，这是一种基于简单架构的优秀LMM，其在大多数多模态基准测试中表现出色。该项目可在https://ShareGPT4V.github.io上获取，为推进LMMs社区提供了重要的资源。
图表
解决问题

该论文旨在解决大型多模态模型中模态对齐的问题，因为高质量的图像-文本数据往往很少。它介绍了ShareGPT4V数据集，该数据集包含120万个高度描述性的标题，涵盖世界知识、对象属性、空间关系和美学评估等方面，旨在提高LMMs的性能。
关键思路

该论文的关键思路是使用ShareGPT4V数据集来提高多模态模型的性能。它通过在现有SFT数据集中使用高质量的标题，增强了LLaVA-7B、LLaVA-1.5-13B和Qwen-VL-Chat-7B等LMMs的性能，并提出了一种基于简单架构的优越LMM ShareGPT4V-7B。
其它亮点

该论文的亮点包括：1）介绍了一个包含120万个高质量标题的数据集ShareGPT4V；2）通过在现有SFT数据集中使用ShareGPT4V数据集中的标题，提高了多模态模型的性能；3）提出了一种基于简单架构的优越LMM ShareGPT4V-7B；4）实验结果表明，使用ShareGPT4V数据集可以在多模态基准测试中显著提高模型性能。
相关研究

在该领域的相关研究包括：1）ViLBERT：Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks；2）LXMERT: Learning Cross-Modality Encoder Representations from Transformers；3）UNITER: Universal Image-TExt Representation Learning。

ShareGPT4V: Improving Large Multi-Modal Models with Better Captions

评论