- 简介监督微调(SFT)是大型语言模型(LLMs)的关键步骤,使它们能够与人类指令对齐,并增强其在下游任务中的能力。当模型需要与更广泛的下游任务对齐,或者有意显著提高特定任务的性能时,通常会出现大规模增加微调数据的解决方案。然而,我们发现大规模增加指令数据可能会破坏先前存储在LLMs中的世界知识,即世界知识遗忘。在本文中,我们介绍了LoRAMoE来解决上述挑战。LoRAMoE是Mixture of Experts(MoE)的插件版本。插件形式确保在训练阶段冻结骨干模型以保持世界知识的完整性。然后,我们提出使用本地平衡约束来协调专家的部分任务利用,同时使其他专家充分利用存储在模型中的世界知识。实验结果表明,LoRAMoE可以合理地根据数据类型协调专家在推理过程中的使用,即使大幅增加指令数据也不会导致知识遗忘。此外,LoRAMoE为下游任务的性能提供了额外的好处,表明我们的方法在多任务学习方面具有潜力。
- 图表
- 解决问题解决问题的问题是如何在不遗忘世界知识的情况下,通过增加fine-tuning数据来提高LLMs的性能?
- 关键思路LoRAMoE是一种MoE的插件版本,通过在训练阶段冻结骨干模型来确保世界知识的完整性。同时,使用本地化平衡约束来协调专家的部分任务利用,同时使其他专家充分利用存储在模型中的世界知识。
- 其它亮点实验结果表明,LoRAMoE可以合理地协调专家的数据类型,并且即使大幅增加指令数据,也不会导致知识遗忘。此外,LoRAMoE还提供了额外的下游任务性能优化,表明了我们方法在多任务学习中的潜力。
- 最近的相关研究包括:《Mixture of Experts for Large Scale Hierarchical Classification》、《Mixture of Experts》
沙发等你来抢
去评论
评论
沙发等你来抢