Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts

2024年05月18日
  • 简介
    最近的多模态大语言模型(MLLMs)的进展强调了可扩展模型和数据来提高性能,但这通常会带来巨大的计算成本。虽然混合专家(MoE)架构已被用于有效扩展大型语言和图像文本模型,但这些努力通常涉及较少的专家和有限的模态。为了解决这个问题,我们的工作是开发一个名为Uni-MoE的带有MoE架构的统一MLLM,可以处理各种模态。具体而言,它具有特定于模态的编码器和连接器,用于统一的多模态表示。我们还在LLMs中实现了稀疏MoE架构,通过模态级数据并行和专家级模型并行实现高效的训练和推理。为了增强多专家协作和泛化能力,我们提出了渐进式训练策略:1)使用具有不同跨模态数据的各种连接器进行跨模态对齐,2)使用跨模态指令数据训练模态特定的专家以激活专家的偏好,3)利用混合多模态指令数据上的低秩适应(LoRA)调整Uni-MoE框架。我们在一组全面的多模态数据集上评估了经过指令调整的Uni-MoE。广泛的实验结果证明了Uni-MoE在处理混合多模态数据集时显著减少性能偏差的主要优势,同时改善了多专家协作和泛化能力。我们的研究结果突显了MoE框架在推进MLLMs方面的巨大潜力,代码可在https://github.com/HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMs上获取。
  • 图表
  • 解决问题
    本文旨在开发一种名为Uni-MoE的统一多模态大语言模型,该模型采用混合专家(MoE)架构,能够处理多种模态。该模型试图解决多模态数据处理中的性能偏差问题。
  • 关键思路
    本文提出了一种利用稀疏MoE架构和逐步训练策略来提高多模态大语言模型性能的方法。该方法包括使用具有连接器的模态特定编码器来实现统一的多模态表示,以及使用逐步训练策略来增强多专家协作和泛化能力。
  • 其它亮点
    本文的亮点包括:1)提出了Uni-MoE模型,能够处理多种模态;2)采用稀疏MoE架构和逐步训练策略来提高模型性能;3)在多个多模态数据集上进行了实验验证,证明了该模型的性能优势;4)开源了代码。
  • 相关研究
    最近的相关研究包括:1)使用MoE架构处理大规模语言模型的研究;2)使用MoE架构处理图像和文本模态的研究;3)使用其他方法处理多模态数据的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论