MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting

2024年06月25日
  • 简介
    大型语言模型(LLMs)的出现主要服务于高资源语言,导致低资源语言的性能差距较大。传统的持续训练(CT)方法在扩展到多语言环境时,往往会削弱模型的原始语言能力,从而无法弥合这一差距。为了解决这个问题,我们引入了一种新颖的MoE-CT架构,这种范式创新地将基础模型的学习与多语言扩展过程分离。我们的设计冻结了原始LLM参数,从而保障了其在高资源语言中的表现,而附加的MoE模块则在多语言数据集上进行训练,增强了低资源语言的性能。我们的方法在多语言基准测试中表现显著优于传统的CT方法,实验证明了我们的方法在不牺牲模型原始语言性能的前提下,显著提高了多语言基准测试的性能。此外,我们的MoE-CT框架表现出更强的抗遗忘能力和卓越的迁移学习能力。通过保护基础模型的完整性并专注于战略性参数扩展,我们的方法推进了多语言语言建模,并在LLMs中为低资源语言的包容性迈出了重要一步,为未来语言技术研究指明了一个富有成果的方向。
  • 图表
  • 解决问题
    解决低资源语言在大型语言模型中性能不足的问题,并在扩展到多语言环境时不损害原始语言模型的语言能力。
  • 关键思路
    提出MoE-CT架构,将原始语言模型的学习与多语言扩展过程分离,冻结原始模型参数以保护其在高资源语言中的性能,而在附加的MoE模块上训练多语言数据集以增强低资源语言的性能。
  • 其它亮点
    实验表明,相比传统的Continual Training方法,MoE-CT方法在多语言基准测试中表现显著提高,而不损害原始语言模型的性能。此外,MoE-CT框架表现出更强的防遗忘能力和更优秀的迁移学习能力。
  • 相关研究
    最近的相关研究包括:《Unsupervised Cross-lingual Representation Learning at Scale》、《Massively Multilingual Neural Machine Translation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论