Self-Expansion of Pre-trained Models with Mixture of Adapters for Continual Learning

2024年03月27日
  • 简介
    连续学习旨在从不断到达的数据流中学习,同时最小化先前学习知识的遗忘。虽然以前的研究探讨了利用预训练模型中的通用知识在连续学习中的有效性,但现有的参数高效微调方法侧重于使用预先确定或任务特定的一组适配器或提示。然而,这些方法仍然受到任务干扰对共同使用参数或受限灵活性的遗忘的影响。依赖于静态模型架构可能导致分配过多不必要的参数或者相反,在连续学习中,由于传入数据的规模和分布是不可预测的,可能会导致下游任务的适应不足。我们提出了一种名为“自我扩展的预训练模型与模块化适应”的新型微调方法(SEMA),它在连续学习中根据不同表示级别检测到的无法通过现有模块处理的剧烈分布转移,自动决定何时重用或添加适配器模块。我们设计每个适配器模块由适配器和表示描述符组成,具体实现为自动编码器。表示描述符在训练过程中作为分布转移指示器,并触发适配器扩展。为了更好地使用适配器,我们联合学习了可扩展的加权路由器,用于混合适配器输出。通过与基于视觉变换器的连续学习适应方法进行比较,我们证明了该提出的框架在没有记忆回放的情况下优于现有技术水平。
  • 作者讲解
  • 图表
  • 解决问题
    SEMA论文的问题是如何在连续学习中最小化遗忘并利用预训练模型的通用知识。
  • 关键思路
    SEMA提出了一种自我扩展的fine-tuning方法,通过自动决定何时重用或添加适配器模块来解决遗忘问题。SEMA设计每个适配器模块由适配器和表示描述符组成,并使用可扩展的加权路由器来更好地利用适配器。
  • 其它亮点
    论文的亮点在于提出了一种自我扩展的fine-tuning方法,可以自动决定何时添加适配器模块,同时使用表示描述符来检测分布转移。SEMA在多个数据集上进行了实验,并且在不使用记忆回放的情况下,与当前最先进的基于视觉转换器的连续学习适应方法相比,取得了更好的效果。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:《Continual Learning for Robotics: Definition, Framework, and Review》、《Continual Learning: A Comparative Study on How to Defy Forgetting in Classification Tasks》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问