Dual Memory Networks: A Versatile Adaptation Approach for Vision-Language Models

2024年03月26日
  • 简介
    随着 CLIP 等预训练视觉-语言模型的出现,如何将它们适应各种下游分类任务已经引起了近期研究的重视。适应策略通常可以分为三种范式:零样本适应、少样本适应和最近提出的无需训练的少样本适应。大多数现有方法都是针对特定情况量身定制的,只能适应其中一种或两种范式。本文介绍了一种通用的适应方法,可以有效地在这三个情况下工作。具体而言,我们提出了由动态和静态记忆组件组成的双重记忆网络。静态记忆缓存训练数据知识,实现无需训练的少样本适应,而动态记忆在测试过程中在线保留历史测试特征,允许探索超出训练集的附加数据见解。这种新颖的能力增强了少样本设置下的模型性能,并使模型在没有训练数据的情况下可用。这两个记忆网络采用相同的灵活记忆交互策略,可以在无需训练的模式下运行,并可以通过合并可学习的投影层进一步增强。我们的方法在三个任务设置下测试了 11 个数据集。值得注意的是,在零样本情况下,它的表现超过现有方法超过 3%,甚至表现优于使用外部训练数据的方法。此外,我们的方法展现了对自然分布变化的稳健性能。代码可在 \url{https://github.com/YBZh/DMN} 上获得。
  • 图表
  • 解决问题
    论文旨在解决如何适应预训练的视觉-语言模型到各种下游分类任务的问题,并提出一种灵活的适应方法。
  • 关键思路
    论文提出了双重记忆网络,包括动态和静态记忆组件,静态记忆缓存训练数据知识,实现了训练无关的少样本适应,而动态记忆则在线保存历史测试特征,允许探索超出训练集的附加数据见解,增强了少样本情况下的模型性能,并使模型在没有训练数据的情况下可用。这种新颖的能力提高了模型的性能,并允许模型在没有训练数据的情况下使用。
  • 其它亮点
    论文在11个数据集上测试了该方法,并在零样本情况下表现出超过3%的优异结果,甚至表现出优于使用外部训练数据的方法。此外,该方法表现出对自然分布变化的鲁棒性。作者提供了开源代码。
  • 相关研究
    最近的相关研究包括:Meta-Transfer Learning for Few-Shot Learning, Few-Shot Learning with Graph Neural Networks, Few-Shot Learning via Learning the Representation, Zero-Shot Learning - A Comprehensive Evaluation of the Good, the Bad and the Ugly等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论