MoFO: Momentum-Filtered Optimizer for Mitigating Forgetting in LLM Fine-Tuning

2024年07月30日
  • 简介
    最近,大型语言模型(LLMs)在各种任务中展示了卓越的能力。通常,LLM会在大型语料库上进行预训练,然后在特定任务的数据集上进行微调。然而,在微调过程中,LLM可能会忘记在预训练阶段获得的知识,导致一般能力下降。为了解决这个问题,我们提出了一种新的微调算法,称为动量滤波优化器(MoFO)。MoFO的关键思想是迭代选择和更新具有最大动量幅度的模型参数。与全参数训练相比,MoFO在保持参数接近预训练模型的同时实现类似的微调性能,从而减轻了知识遗忘。与大多数现有的遗忘缓解方法不同,MoFO结合了以下两个优点。首先,MoFO不需要访问预训练数据。这使得MoFO特别适用于没有预训练数据的微调场景,例如微调仅有检查点的开源LLMs。其次,MoFO不改变原始损失函数。这可以避免影响模型在微调任务上的表现。我们通过严格的收敛分析和广泛的实验验证了MoFO的优越性,证明了它在减轻遗忘和提高微调性能方面优于现有方法。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:本文试图解决在LLMs fine-tuning过程中,由于遗忘问题导致性能下降的问题。
  • 关键思路
    关键思路:本文提出了一种新的fine-tuning算法MoFO,通过迭代选择和更新具有最大动量幅度的模型参数,实现了与全参数训练相似的性能,同时让参数更接近预训练模型,从而缓解了遗忘问题。与现有大多数方法不同,MoFO不需要访问预训练数据,也不会改变原始损失函数。
  • 其它亮点
    亮点:本文通过收敛性分析和大量实验证明了MoFO在缓解遗忘和提高fine-tuning性能方面的优越性。实验使用了多个数据集,但未提供开源代码。
  • 相关研究
    相关研究:最近在这个领域中,还有其他一些相关的研究,如Gradient Episodic Memory for Continual Learning和Experience Replay for Continual Learning等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问