MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

2024年06月25日
  • 简介
    多模态大型语言模型(MLLMs)在各种视觉理解任务中取得了重大进展。然而,这些模型大多受限于处理低分辨率图像,这限制了它们在需要详细视觉信息的感知任务中的有效性。在我们的研究中,我们提出了MG-LLaVA,一种创新的MLLM,通过结合多粒度视觉流来增强模型的视觉处理能力,其中包括低分辨率、高分辨率和对象中心特征。我们提出了集成额外的高分辨率视觉编码器来捕获细粒度细节,然后通过Conv-Gate融合网络将其与基础视觉特征融合。为了进一步提高模型的对象识别能力,我们还结合了离线检测器识别出的边界框导出的对象级特征。MG-LLaVA仅通过指导调整在公开可用的多模态数据上进行训练,展示了出色的感知技能。我们使用范围从3.8B到34B的各种语言编码器来实例化MG-LLaVA,全面评估模型的性能。在多个基准测试中进行的广泛评估表明,MG-LLaVA优于参数大小相当的现有MLLMs,展示了其显着的功效。代码将在https://github.com/PhoenixZ810/MG-LLaVA上提供。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在提高多模态大语言模型在视觉理解任务中的表现,特别是处理需要详细视觉信息的任务,如何有效地融合高分辨率、低分辨率和对象级特征是本文试图解决的问题。
  • 关键思路
    本文提出了一个创新的多粒度视觉流方案,包括低分辨率、高分辨率和对象中心特征,并通过Conv-Gate融合网络将额外的高分辨率视觉编码器捕捉到的细节与基本视觉特征融合。同时,通过引入离线检测器识别的边界框来进一步改善模型的对象识别能力。
  • 其它亮点
    本文提出的MG-LLaVA模型在公开的多模态数据集上进行了训练,展现了出色的感知技能。作者使用了多种语言编码器对MG-LLaVA进行了实例化,评估了模型的性能。在多个基准测试中,MG-LLaVA表现优异,相比较同规模的现有多模态大语言模型,其效果更好。
  • 相关研究
    最近的相关研究包括使用多模态预训练模型进行视觉问答和图像字幕生成的研究。其中一些论文包括《Unified Vision-Language Pre-Training for Image Captioning and VQA》和《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问