Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters

简介

持续学习可以使视觉-语言模型不断获得新知识，而无需访问整个历史数据集。然而，在大规模模型中减轻性能下降并不容易，因为在终身学习过程中存在参数漂移，并且全模型调整带来了重大的计算负担。在本文中，我们提出了一个参数高效的持续学习框架，以减轻视觉-语言模型中增量学习中的长期遗忘。我们的方法涉及到预训练CLIP模型的动态扩展，通过集成专家混合(MoE)适配器来响应新任务。为了保持视觉-语言模型的零样本识别能力，我们进一步引入了一个分布鉴别自动选择器(DDAS)，自动将分布内和分布外的输入路由到MoE适配器和原始CLIP中。通过在各种设置下的大量实验，我们提出的方法始终优于先前的最先进方法，同时将参数训练负担减少了60%。我们的代码位于https://github.com/JiazuoYu/MoE-Adapters4CL。
图表
解决问题

提出一个参数高效的持续学习框架，以缓解视觉语言模型中增量学习中的长期遗忘问题。
关键思路

通过在响应新任务时集成Mixture-of-Experts（MoE）适配器，动态扩展预训练的CLIP模型，以解决参数漂移问题。此外，引入Distribution Discriminative Auto-Selector（DDAS）来自动将分布内和分布外的输入路由到MoE适配器和原始CLIP中，以保留零样本识别能力。
其它亮点

该方法在各种设置下进行了广泛的实验，并始终优于以前的最先进方法，同时将参数训练负担降低了60％。该论文的代码已经公开。
相关研究

最近的相关研究包括Continual Learning for Natural Language Generation with Knowledge Distillation和Efficient Lifelong Learning with A-GEM等。

Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters

评论