Revisiting Catastrophic Forgetting in Large Language Model Tuning

简介

“灾难性遗忘”（Catastrophic Forgetting，CF）是指模型在学习新数据时忘记了先前获得的知识，这会影响大型语言模型（LLMs）在微调过程中的有效性，然而其根本原因尚未得到深入研究。本文首次揭示了模型损失函数平坦度与LLMs领域中CF程度之间的直接联系，为此我们引入了“锐度感知最小化”（sharpness-aware minimization）来通过平坦化损失函数来缓解CF。在覆盖不同模型规模的三个广泛使用的微调数据集上进行的实验表明，我们的方法在缓解CF方面是有效的。分析表明，我们很好地补充了现有的抗遗忘策略，进一步增强了LLMs对CF的抵抗力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文旨在解决大型语言模型在fine-tuning时遇到的灾难性遗忘问题，即在学习新数据时遗忘之前学到的知识的问题。
关键思路

关键思路：论文通过研究模型损失函数的平坦程度与遗忘程度之间的关系，提出了一种新的方法——锐度感知最小化，通过使损失函数平坦来缓解灾难性遗忘问题。
其它亮点

其他亮点：论文在三个不同规模的fine-tuning数据集上进行了实验，证明了锐度感知最小化方法在缓解灾难性遗忘问题方面的有效性。此外，论文还分析了现有的抗遗忘策略，并指出该方法可以进一步提高大型语言模型对灾难性遗忘的抵抗力。
相关研究

相关研究：近期在这个领域中的相关研究包括《Continual Learning with Hypernetworks》、《Gradient Episodic Memory for Continual Learning》等。

Revisiting Catastrophic Forgetting in Large Language Model Tuning

提问交流

提问交流