Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

2024年03月12日
  • 简介
    我们研究了训练大型语言模型(LLMs)在多个专业领域(例如编码、数学推理和世界知识)具有能力的有效方法。我们的方法名为Branch-Train-MiX(BTX),从种子模型开始,通过尴尬地并行训练专家来进行分支,具有高吞吐量和降低通信成本的优点。在单独的专家被异步训练后,BTX将它们的前馈参数作为专家集成在MoE层中,并平均剩余参数,随后进行MoE微调阶段以学习令牌级路由。BTX概括了两种特殊情况,即Branch-Train-Merge方法和稀疏升级,前者不需要MoE微调阶段来学习路由,后者省略了异步训练专家的阶段。与替代方法相比,BTX实现了最佳的准确性和效率平衡。
  • 图表
  • 解决问题
    本文旨在研究如何高效地训练大型语言模型(LLMs)以具备多个专业领域的能力,例如编程、数学推理和世界知识。
  • 关键思路
    本文提出了一种名为Branch-Train-MiX(BTX)的方法,通过从种子模型开始,将其分支以高吞吐量和降低通信成本的方式训练专家。在单独训练专家后,BTX将它们的前馈参数作为MoE层中的专家集合,并平均剩余参数,随后进行MoE微调阶段以学习令牌级路由。BTX实现了两种特殊情况,即Branch-Train-Merge方法和稀疏升级,分别省略了学习路由的MoE微调阶段和异步训练专家的阶段。相比替代方法,BTX实现了最佳的准确性和效率平衡。
  • 其它亮点
    本文的亮点包括:提出了一种高效的方法来训练多领域的语言模型;使用了Mixture-of-Expert(MoE)层来组合不同领域的专家;实验结果表明,BTX方法在准确性和效率方面优于其他方法。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Efficient Transformers: A Survey》和《Large-Scale Language Model Compression》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论