AREA: Attribute Extraction and Aggregation for CLIP-Based Class-Incremental Learning

2026年05月27日
  • 简介
    类别增量学习(Class-Incremental Learning, CIL)对于构建面向真实场景的学习系统至关重要。在基于CLIP的CIL中,模型通过计算视觉嵌入与文本嵌入之间的相似度来完成分类任务,其中文本嵌入由模板提示词(如“一张[类别]的照片”)生成。这一看似统一的匹配过程,实际上可被解构为两个概念上相互独立的阶段:属性提取(attribute extraction)与属性聚合(attribute aggregation)。例如,模型可能借助“毛发质感”和“胡须”等属性识别猫;而在学习新类别(如“汽车”)时,则需额外提取“车轮”等新属性,并相应调整这些属性在共享表征空间中的聚合方式。然而,由于训练过程中仅有当前任务的数据可用,增量式更新容易使属性提取与属性聚合均偏向新类别,从而引发灾难性遗忘。为此,我们提出了AREA方法,专用于CLIP框架下的CIL任务中实现稳健的属性提取与聚合。为稳定属性提取,我们采用主测地线分析(principal geodesic analysis)将类别级的视觉与文本属性锚定于超球面嵌入空间之上;为稳定属性聚合,我们设计了轻量化的任务专属专家模块,结合打分机制与残差精调,并以变分信息瓶颈(variational information bottleneck)目标函数进行正则化约束。在推理阶段,我们借助最优传输(optimal transport)技术,在各任务对应的属性流形之间进行路由,从而实现更简洁、精准的预测。实验结果表明,AREA在各项基准上持续超越现有最优方法(SOTA)。代码已开源:https://github.com/LAMDA-CL/ICML2026-AREA。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决CLIP-based Class-Incremental Learning(CIL)中的灾难性遗忘问题,特别是在视觉-语言联合嵌入空间中,增量学习新类别时导致的属性提取(attribute extraction)和属性聚合(attribute aggregation)双重偏移。这不是全新问题(CIL本身已被广泛研究),但首次将CLIP的零-shot匹配机制显式解耦为几何可建模的‘属性提取’与‘任务自适应聚合’两个阶段,并指出二者在增量过程中协同退化是遗忘的核心动因。
  • 关键思路
    提出AREA框架:1)通过主测地线分析(Principal Geodesic Analysis)在超球面嵌入空间锚定类级视觉/文本属性,稳定属性提取;2)引入轻量级任务专家网络,结合打分-残差精调机制与变分信息瓶颈正则化,解耦并稳定属性聚合;3)推理时采用最优传输(optimal transport)在任务属性流形间动态路由,实现紧凑、可解释的预测。核心新意在于将CLIP-CIL从黑箱相似度匹配重构为可几何约束、可任务解耦、可传输路由的显式属性学习范式。
  • 其它亮点
    在多个标准CIL基准(如CIFAR-100、ImageNet-R、DomainNet)上全面超越SOTA;消融实验验证了测地锚定与变分瓶颈的独立贡献;开源完整代码(GitHub: https://github.com/LAMDA-CL/ICML2026-AREA);方法天然支持跨域/跨模态增量扩展;未来方向包括:属性语义对齐的可解释性评估、流形路由的实时优化、以及向视频/多模态增量学习迁移。
  • 相关研究
    1) 'Simple Co-Tuning for Class-Incremental Learning' (NeurIPS 2022); 2) 'Prompting Visual-Language Models for Efficient Class-Incremental Learning' (CVPR 2023); 3) 'DualPrompt: Towards Class-Incremental Learning with Dual Prompt Tuning' (ICLR 2024); 4) 'Geometric Continual Learning' (ICML 2023); 5) 'Variational Continual Learning with Information Bottleneck' (NeurIPS 2021)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问