- 简介最近的研究表明,扩展大规模视觉语言模型(LVLMs)可以有效提高下游任务的性能。然而,现有的扩展方法使所有模型参数在计算每个标记时都处于活动状态,这带来了巨大的训练和推理成本。在这项工作中,我们提出了一种简单而有效的LVLMs训练策略MoE-Tuning。这种策略创新性地解决了多模态稀疏学习中的常见性能下降问题,因此构建了一个稀疏模型,具有惊人数量的参数,但是计算成本却是恒定的。此外,我们提出了基于MoE的稀疏LVLM体系结构MoE-LLaVA,它在部署期间通过路由器仅唤醒前k个专家,使其余专家保持不活跃。广泛的实验表明,MoE-LLaVA在各种视觉理解和物体幻觉基准测试中表现显著。值得注意的是,仅有大约3B个稀疏激活参数,MoE-LLaVA在各种视觉理解数据集上表现与LLaVA-1.5-7B相当,甚至在物体幻觉基准测试中超过了LLaVA-1.5-13B。通过MoE-LLaVA,我们旨在建立稀疏LVLMs的基准,并为未来开发更高效、更有效的多模态学习系统提供有价值的见解。代码发布在\url{https://github.com/PKU-YuanGroup/MoE-LLaVA}。
- 图表
- 解决问题本篇论文旨在解决大规模视觉语言模型(LVLMs)的训练和推理成本问题,提出了一种名为MoE-Tuning的训练策略和一种名为MoE-LLaVA的LVLM架构,以构建稀疏模型并在保持计算成本不变的情况下提高下游任务性能。
- 关键思路论文的关键思路是使用MoE-Tuning训练策略来解决多模态稀疏学习中的性能下降问题,并提出了MoE-LLaVA架构,在推理过程中仅激活前k个专家,保持其余专家处于非激活状态,从而构建稀疏模型。
- 其它亮点论文通过实验表明,MoE-LLaVA在各种视觉理解和对象幻觉基准测试中具有显着的性能,仅激活约3B个稀疏参数的MoE-LLaVA表现可与激活更多参数的LLaVA-1.5-7B相媲美,并在对象幻觉基准测试中超过了LLaVA-1.5-13B。代码已在GitHub上开源。
- 在这个领域中,最近的相关研究包括《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unified Vision-Language Pre-Training for Image Captioning and VQA》等。
沙发等你来抢
去评论
评论
沙发等你来抢