- 简介在大型多模态模型(LMMs)领域中,高效的模态对齐对于提高模型性能至关重要,但往往受到高质量图像文本数据稀缺的限制。为了解决这一瓶颈,我们引入了ShareGPT4V数据集,这是一个开创性的大规模资源,包含120万个高度描述性的字幕,超越了现有数据集在多样性和信息内容方面的限制,涵盖了世界知识、物体属性、空间关系和美学评价。具体来说,ShareGPT4V源于从先进的GPT4-Vision中收集的10万个高质量字幕,并通过在此子集上训练出的优秀字幕模型扩展到120万个。ShareGPT4V首先展示了其在监督微调(SFT)阶段的有效性,通过用我们高质量字幕的子集替换现有SFT数据集中等量的详细字幕,显著提高了MME和MMBench基准测试中的LLaVA-7B、LLaVA-1.5-13B和Qwen-VL-Chat-7B等LMMs的性能,分别获得了222.8/22.0/22.3和2.7/1.3/1.5的增益。我们进一步将ShareGPT4V数据集应用于预训练和SFT阶段,获得了ShareGPT4V-7B,这是一种基于简单架构的优秀LMM,其在大多数多模态基准测试中表现出色。该项目可在https://ShareGPT4V.github.io上获取,为推进LMMs社区提供了重要的资源。
- 图表
- 解决问题该论文旨在解决大型多模态模型中模态对齐的问题,因为高质量的图像-文本数据往往很少。它介绍了ShareGPT4V数据集,该数据集包含120万个高度描述性的标题,涵盖世界知识、对象属性、空间关系和美学评估等方面,旨在提高LMMs的性能。
- 关键思路该论文的关键思路是使用ShareGPT4V数据集来提高多模态模型的性能。它通过在现有SFT数据集中使用高质量的标题,增强了LLaVA-7B、LLaVA-1.5-13B和Qwen-VL-Chat-7B等LMMs的性能,并提出了一种基于简单架构的优越LMM ShareGPT4V-7B。
- 其它亮点该论文的亮点包括:1)介绍了一个包含120万个高质量标题的数据集ShareGPT4V;2)通过在现有SFT数据集中使用ShareGPT4V数据集中的标题,提高了多模态模型的性能;3)提出了一种基于简单架构的优越LMM ShareGPT4V-7B;4)实验结果表明,使用ShareGPT4V数据集可以在多模态基准测试中显著提高模型性能。
- 在该领域的相关研究包括:1)ViLBERT:Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks;2)LXMERT: Learning Cross-Modality Encoder Representations from Transformers;3)UNITER: Universal Image-TExt Representation Learning。
沙发等你来抢
去评论
评论
沙发等你来抢