最近的多模态大语言模型(MLLMs)的进展强调了可扩展模型和数据来提高性能,但这通常会带来巨大的计算成本。虽然混合专家(MoE)架构已被用于有效扩展大型语言和图像文本模型,但这些努力通常涉及较少的专家和有限的模态。为了解决这个问题,我们的工作是开发一个名为Uni-MoE的带有MoE架构的统一MLLM,可以处理各种模态。具体而言,它具有特定于模态的编码器和连接器,用于统一的多模态表示。我们还在LLMs中实现了稀疏MoE架构,通过模态级数据并行和专家级模型并行实现高效的训练和推理。为了增强多专家协作和泛化能力,我们提出了渐进式训练策略:1)使用具有不同跨模态数据的各种连接器进行跨模态对齐,2)使用跨模态指令数据训练模态特定的专家以激活专家的偏好,3)利用混合多模态指令数据上的低秩适应(LoRA)调整Uni-MoE框架。我们在一组全面的多模态数据集上评估了经过指令调整的Uni-MoE。广泛的实验结果证明了Uni-MoE在处理混合多模态数据集时显著减少性能偏差的主要优势,同时改善了多专家协作和泛化能力。我们的研究结果突显了MoE框架在推进MLLMs方面的巨大潜力,代码可在https://github.com/HITsz-TMG/UMOE-Scaling-Unified-Multimodal-LLMs上获取。
提问交流