Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters

2024年03月18日
  • 简介
    持续学习可以使视觉-语言模型不断获得新知识,而无需访问整个历史数据集。然而,在大规模模型中减轻性能下降并不容易,因为在终身学习过程中存在参数漂移,并且全模型调整带来了重大的计算负担。在本文中,我们提出了一个参数高效的持续学习框架,以减轻视觉-语言模型中增量学习中的长期遗忘。我们的方法涉及到预训练CLIP模型的动态扩展,通过集成专家混合(MoE)适配器来响应新任务。为了保持视觉-语言模型的零样本识别能力,我们进一步引入了一个分布鉴别自动选择器(DDAS),自动将分布内和分布外的输入路由到MoE适配器和原始CLIP中。通过在各种设置下的大量实验,我们提出的方法始终优于先前的最先进方法,同时将参数训练负担减少了60%。我们的代码位于https://github.com/JiazuoYu/MoE-Adapters4CL。
  • 图表
  • 解决问题
    提出一个参数高效的持续学习框架,以缓解视觉语言模型中增量学习中的长期遗忘问题。
  • 关键思路
    通过在响应新任务时集成Mixture-of-Experts(MoE)适配器,动态扩展预训练的CLIP模型,以解决参数漂移问题。此外,引入Distribution Discriminative Auto-Selector(DDAS)来自动将分布内和分布外的输入路由到MoE适配器和原始CLIP中,以保留零样本识别能力。
  • 其它亮点
    该方法在各种设置下进行了广泛的实验,并始终优于以前的最先进方法,同时将参数训练负担降低了60%。该论文的代码已经公开。
  • 相关研究
    最近的相关研究包括Continual Learning for Natural Language Generation with Knowledge Distillation和Efficient Lifelong Learning with A-GEM等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论