MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA based Mixture of Experts - 智源社区论文

简介

大型语言模型（LLMs）在各种自然语言处理（NLP）任务中展示了出色的性能。微调技术通常用于将预训练模型定制到特定应用程序。虽然像LoRA这样的方法在微调过程中有效地解决了GPU内存限制的问题，但它们的适用性通常受到性能限制的限制，特别是在多任务上。另一方面，Mix-of-Expert（MoE）模型，例如Mixtral 8x7B，在多个NLP任务中表现出卓越的性能，同时保持减少的参数数量。然而，这些MoE的资源需求仍然具有挑战性，特别是对于只有有限VRAM的消费级GPU。为了解决这些挑战，我们提出了MixLoRA，这是一种创新的方法，旨在基于LoRA构建一种资源高效的稀疏MoE模型。MixLoRA通过微调在预训练的稠密模型的前馈网络块中插入多个基于LoRA的专家，采用常用的top-k路由器。与其他基于LoRA的MoE方法不同，MixLoRA通过利用可独立配置的注意层LoRA适配器，支持使用LoRA及其变体来构建专家，并应用辅助负载平衡损失来解决路由器不平衡问题，从而提高了模型的性能。在实验中，MixLoRA在单任务和多任务学习场景中的所有评估指标上均取得了可观的性能。在m-LoRA框架中实现MixLoRA，可以在单个24GB消费级GPU上并行微调多个混合专家模型，无需量化，从而将GPU内存消耗减少了41％，训练过程中的延迟减少了17％。
图表
解决问题

本文旨在解决使用MoE模型在多任务学习中需要大量资源的问题，提出了一种基于LoRA的资源高效的稀疏MoE模型MixLoRA。
关键思路

MixLoRA通过在预训练的稠密模型的前馈网络块中插入多个基于LoRA的专家，并使用常用的top-k路由器进行微调，从而构建出一种资源高效的稀疏MoE模型。
其它亮点

MixLoRA在单任务和多任务学习场景下都取得了良好的性能，使用m-LoRA框架可以在单个24GB消费级GPU上并行微调多个MoE模型，而无需量化，从而将GPU内存消耗降低了41％，训练过程中的延迟降低了17％。
相关研究

近期的相关研究包括使用LoRA的其他MoE方法，如LoRA-MoE和LoRA-Softmax-MoE。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论