- 简介本文介绍了MM-Instruct,一个多样化且高质量的视觉指令数据集,旨在增强大型多模态模型(LMM)的指令跟随能力。虽然现有的视觉指令数据集通常专注于问答,但它们往往难以推广到更广泛的应用场景,例如创意写作、摘要或图像分析。为了解决这些限制,我们提出了一种新的构建MM-Instruct的方法,利用现有LMM的强大指令跟随能力,从大规模但传统的图像字幕数据集中生成新的视觉指令数据。MM-Instruct首先利用ChatGPT从一小组种子指令中自动生成多样化的指令,通过扩充和摘要。然后将这些指令与图像进行匹配,并使用开源的大型语言模型(LLM)生成连贯的指令-图像对的答案。在整个答案生成过程中,LLM是通过图像的详细文本描述来保证指令数据的对齐。此外,我们引入了一个基于生成的指令数据的基准来评估现有LMM的指令跟随能力。我们通过在生成的数据上训练LLaVA-1.5模型展示了MM-Instruct的有效性,称为LLaVA-Instruct,相比LLaVA-1.5模型,在指令跟随能力方面有显著的改进。MM-Instruct数据集、基准和预训练模型可在https://github.com/jihaonew/MM-Instruct上获得。
- 图表
- 解决问题本文旨在解决现有视觉指令数据集在广泛应用场景中泛化能力不足的问题,提出了一种构建大规模、多样化、高质量视觉指令数据集的方法,以提高大型多模型模型(LMMs)的指令跟随能力。
- 关键思路本文提出的方法利用现有LMMs的强大指令跟随能力,从大规模但传统的图像字幕数据集中生成新的视觉指令数据。该方法使用ChatGPT自动生成多样化的指令,然后将这些指令与图像匹配,并使用开源的大型语言模型(LLM)生成与图像对应的连贯答案。整个答案生成过程中,LLM通过图像的详细文本描述进行约束,以保证指令数据的对齐。
- 其它亮点本文构建了一个大规模、多样化、高质量的视觉指令数据集MM-Instruct,并提出了一个基于该数据集的基准测试,用于评估现有LMMs的指令跟随能力。通过在生成的数据上训练LLaVA-1.5模型,即LLaVA-Instruct,证明了MM-Instruct的有效性,并展示了其在指令跟随能力方面相比LLaVA-1.5模型的显著提高。此外,本文还提供了MM-Instruct数据集、基准测试和预训练模型的开源代码。
- 在最近的相关研究中,也有一些关注视觉指令的数据集和模型。例如,COCO-QA数据集和VQA数据集都包含了与图像相关的问题和答案。与本文不同的是,这些数据集都没有专注于视觉指令,并且在广泛应用场景中的泛化能力有限。此外,一些研究也关注了LMMs的指令跟随能力,例如ViLBERT和LXMERT。
沙发等你来抢
去评论
评论
沙发等你来抢