MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity

2024年07月22日
  • 简介
    尽管视觉语言监督微调在提高视觉大语言模型(VLLM)性能方面非常有效,但现有的视觉指导微调数据集存在以下限制:(1)指令注释质量:尽管现有的VLLM表现出很强的性能,但这些先进的VLLM生成的指令仍然可能存在不准确性,例如幻觉。(2)指令和图像多样性:指令类型的有限范围和图像数据的缺乏多样性可能会影响模型生成多样化和更接近实际场景的输出能力。为了解决这些挑战,我们构建了一个高质量、多样化的视觉指令微调数据集MMInstruct,其中包含来自24个领域的973K个指令。有四种指令类型:判断、多项选择、长视觉问答和短视觉问答。为了构建MMInstruct,我们提出了一个指令生成数据引擎,利用了GPT-4V、GPT-3.5和手动校正。我们的指令生成引擎实现了半自动、低成本和多领域的指令生成,成本仅为手动构建的1/6。通过大量的实验验证和消融实验,我们证明MMInstruct能够显著提高VLLMs的性能,例如,微调MMInstruct的模型在12个基准测试中有10个取得了新的最优性能。代码和数据可在https://github.com/yuecao0119/MMInstruct上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在构建一个高质量、多样化的视觉指令调整数据集MMInstruct,以解决现有数据集中存在的指令注释质量和图像多样性的限制,并验证其能够显著提高VLLMs的性能。
  • 关键思路
    论文提出了一个指令生成数据引擎,利用GPT-4V、GPT-3.5和手动校正,实现了半自动、低成本、多领域的指令生成,构建了一个包含24个领域、973K个指令的数据集MMInstruct,并通过实验验证证明其能够显著提高VLLMs的性能。
  • 其它亮点
    论文的亮点包括:构建了一个高质量、多样化的数据集MMInstruct,使用了指令生成数据引擎实现了半自动、低成本、多领域的指令生成,证明了MMInstruct能够显著提高VLLMs的性能,代码和数据已经开源。
  • 相关研究
    在相关研究方面,最近的相关研究包括《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问