Parameter-Efficient Fine-Tuning for Continual Learning: A Neural Tangent Kernel Perspective

2024年07月24日
  • 简介
    Parameter-efficient fine-tuning for continual learning(PEFT-CL)已经显示出在适应预训练模型到顺序任务并缓解灾难性遗忘问题方面的潜力。然而,理解这种范式中决定连续性能的机制仍然难以捉摸。为了解决这种复杂性,我们利用神经切向核(NTK)理论对PEFT-CL动态进行了严格分析,以推导出相关的连续场景度量标准。通过将NTK作为数学分析工具,我们将测试时间遗忘的挑战重新定义为训练期间的可量化泛化差距,并识别出影响这些差距和PEFT-CL性能的三个关键因素:训练样本大小、任务级特征正交性和正则化。为了解决这些挑战,我们引入了NTK-CL,这是一个新颖的框架,它消除了任务特定的参数存储,同时自适应地生成任务相关特征。符合理论指导,NTK-CL将每个样本的特征表示三倍化,从理论和经验上降低了任务交互和任务特定泛化差距的幅度。基于NTK分析,我们的方法实施了自适应指数移动平均机制和任务级特征正交性约束,保持了任务内NTK形式,同时减弱了任务间NTK形式。最终,通过使用适当的正则化来微调可优化参数,NTK-CL在已建立的PEFT-CL基准测试中实现了最先进的性能。这项工作为理解和改进PEFT-CL模型提供了理论基础,为特征表示、任务正交性和泛化之间的相互作用提供了见解,有助于开发更高效的连续学习系统。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决参数高效微调的连续学习中出现的遗忘问题,并通过使用神经切向核理论推导出相关度量指标。
  • 关键思路
    使用神经切向核理论作为数学分析工具,提出了NTK-CL框架,通过自适应生成任务相关特征来消除任务特定参数存储,从而减少任务间干扰和任务特定泛化间隙的大小,最终在已有的PEFT-CL基准测试中取得了最先进的性能。
  • 其它亮点
    论文提出了一种新的框架NTK-CL,通过使用神经切向核理论推导出相关度量指标,解决了参数高效微调的连续学习中出现的遗忘问题,实验结果表明,NTK-CL框架在已有的PEFT-CL基准测试中取得了最先进的性能。
  • 相关研究
    在这个领域中,还有一些相关的研究,例如:《Overcoming Catastrophic Forgetting with Hard Attention to the Task》、《Continual Learning with Deep Generative Replay》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问