MoFO: Momentum-Filtered Optimizer for Mitigating Forgetting in LLM Fine-Tuning

简介

最近，大型语言模型（LLMs）在各种任务中展示了卓越的能力。通常，LLM会在大型语料库上进行预训练，然后在特定任务的数据集上进行微调。然而，在微调过程中，LLM可能会忘记在预训练阶段获得的知识，导致一般能力下降。为了解决这个问题，我们提出了一种新的微调算法，称为动量滤波优化器（MoFO）。MoFO的关键思想是迭代选择和更新具有最大动量幅度的模型参数。与全参数训练相比，MoFO在保持参数接近预训练模型的同时实现类似的微调性能，从而减轻了知识遗忘。与大多数现有的遗忘缓解方法不同，MoFO结合了以下两个优点。首先，MoFO不需要访问预训练数据。这使得MoFO特别适用于没有预训练数据的微调场景，例如微调仅有检查点的开源LLMs。其次，MoFO不改变原始损失函数。这可以避免影响模型在微调任务上的表现。我们通过严格的收敛分析和广泛的实验验证了MoFO的优越性，证明了它在减轻遗忘和提高微调性能方面优于现有方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：本文试图解决在LLMs fine-tuning过程中，由于遗忘问题导致性能下降的问题。
关键思路

关键思路：本文提出了一种新的fine-tuning算法MoFO，通过迭代选择和更新具有最大动量幅度的模型参数，实现了与全参数训练相似的性能，同时让参数更接近预训练模型，从而缓解了遗忘问题。与现有大多数方法不同，MoFO不需要访问预训练数据，也不会改变原始损失函数。
其它亮点

亮点：本文通过收敛性分析和大量实验证明了MoFO在缓解遗忘和提高fine-tuning性能方面的优越性。实验使用了多个数据集，但未提供开源代码。
相关研究

相关研究：最近在这个领域中，还有其他一些相关的研究，如Gradient Episodic Memory for Continual Learning和Experience Replay for Continual Learning等。

MoFO: Momentum-Filtered Optimizer for Mitigating Forgetting in LLM Fine-Tuning

提问交流

提问交流