MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs

2024年06月17日
  • 简介
    生成自然而有意义的回应,以与多模态人类输入进行交流,是大型视觉语言模型(LVLMs)的基本能力。虽然目前的开源LVLMs在简化场景(例如单轮单图像输入)中展示出了有希望的表现,但它们在实际的对话场景中(例如在长时间的上下文历史中遵循指令,涉及多轮和多图像)表现不佳。现有的LVLM基准主要集中在单选题或简短回答上,这并不能充分评估LVLM在实际人工智能交互应用中的能力。因此,我们引入了MMDU,一个全面的基准测试,并且设计了MMDU-45k,一个大规模的指令调整数据集,旨在评估和提高LVLM在多轮和多图像对话中的能力。我们使用聚类算法从开源维基百科中找到相关的图像和文本描述,并在GPT-4o模型的帮助下由人类注释员构建问题-答案对。MMDU最多有18k个图像+文本标记、20个图像和27轮,这至少比以前的基准测试长5倍,并对当前的LVLMs提出了挑战。我们对15个代表性的LVLM进行了深入分析,结果显示开源LVLMs落后于封闭源代码的同行,这是由于缺乏对话指令调整数据。我们证明,对MMDU-45k进行开源LVLMs的微调可以显著地解决这一差距,生成更长、更准确的对话,并提高MMDU和现有基准测试的得分(MMStar:+1.1%,MathVista:+1.5%,ChartQA:+1.2%)。我们的贡献为弥合当前LVLM模型和实际应用需求之间的差距铺平了道路。本项目可在https://github.com/Liuziyu77/MMDU上获得。
  • 图表
  • 解决问题
    本论文旨在解决当前开源大型视觉-语言模型在实际对话场景中表现不佳的问题,提出了MMDU综合基准测试和MMDU-45k大规模指令调整数据集,以评估和改进LVLM的多轮、多图像对话能力。
  • 关键思路
    本论文的关键思路是使用聚类算法从维基百科中寻找相关图像和文本描述,并利用GPT-40模型的帮助,由人类注释员构建问题-答案对,从而构建MMDU基准测试和MMDU-45k调整数据集。作者还发现开源LVLM落后于闭源LVLM,因为缺乏对话指令调整数据,因此建议在MMDU-45k上对开源LVLM进行微调。
  • 其它亮点
    本论文的亮点包括提出了MMDU基准测试和MMDU-45k调整数据集,这些数据集更适合评估LVLM在实际对话场景中的表现。作者进行了15个代表性LVLM的深入分析,发现开源LVLM落后于闭源LVLM,缺乏对话指令调整数据。作者还展示了在MMDU-45k上进行微调可以显著提高LVLM的表现,并在现有基准测试上获得更高的分数。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如MMStar、MathVista和ChartQA等基准测试。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论