MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

2024年01月29日
  • 简介
    对于大型视觉-语言模型(LVLMs)而言,扩展模型的规模可以有效提高性能。然而,扩展模型参数数量会显著增加训练和推理成本,因为在计算过程中每个标记都会激活所有模型参数。在这项工作中,我们提出了一种新的训练策略MoE-tuning,用于LVLMs,它可以构建一个稀疏模型,具有惊人的参数数量,但恒定的计算成本,并有效地解决了多模态学习和模型稀疏性通常伴随的性能下降问题。此外,我们提出了MoE-LLaVA框架,这是一种基于MoE的稀疏LVLM体系结构。该框架在部署过程中唯一通过路由器激活前k个专家,保持其余的专家处于非活动状态。我们的广泛实验突出了MoE-LLaVA在视觉理解方面的出色能力,以及减少模型输出中幻觉的潜力。值得注意的是,仅使用30亿个稀疏激活参数,MoE-LLaVA在各种视觉理解数据集上展现出与LLaVA-1.5-7B相当的性能,甚至在物体幻觉基准测试中超过了LLaVA-1.5-13B。通过MoE-LLaVA,我们旨在建立稀疏LVLM的基线,并为未来开发更高效、更有效的多模态学习系统提供有价值的见解。代码发布在\url{https://github.com/PKU-YuanGroup/MoE-LLaVA}上。
  • 图表
  • 解决问题
    本文旨在解决大型视觉语言模型(LVLMs)的性能问题以及由于模型稀疏性和多模态学习而导致的性能下降问题。
  • 关键思路
    本文提出了一种名为MoE-tuning的训练策略,可以构建一个稀疏模型,具有极高的参数数量但恒定的计算成本,并有效地解决了多模态学习和模型稀疏性所带来的性能下降问题。此外,本文提出了MoE-LLaVA框架,一种基于MoE的稀疏LVLM架构,该框架在部署期间通过路由器仅激活前k个专家,使其余专家处于非活动状态。
  • 其它亮点
    实验结果表明,MoE-LLaVA在视觉理解方面具有出色的能力,并有潜力减少模型输出中的幻觉。仅使用30亿个稀疏激活参数,MoE-LLaVA在各种视觉理解数据集上展现了与LLaVA-1.5-7B相当的性能,并在物体幻觉基准测试中超越了LLaVA-1.5-13B。此外,本文提供了开源代码。
  • 相关研究
    近期的相关研究包括《VisualBERT:一种视觉语言嵌入式模型用于图像和文本之间的多模态理解》和《UniVL:一种单一的嵌入式多模态学习框架》。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论