Calibrating Multi-modal Representations: A Pursuit of Group Robustness without Annotations

2024年03月12日
  • 简介
    对预训练的视觉-语言模型(如CLIP)进行微调可以在各种下游任务中取得成功。然而,这种范式仍存在一些痛点:(i)直接微调整个预训练模型变得耗时且计算成本高。此外,这些微调后的模型往往变得高度专业化,限制了它们在实际部署中的实用性;(ii)最近的研究表明,预训练的视觉-语言分类器可能过度依赖虚假特征——与训练数据中的目标相关但与真实标签函数无关的模式;(iii)现有的减少对虚假特征依赖的研究主要基于我们能够识别这些特征的假设,对于实际应用并没有提供明确的保证。本研究作为一个试点研究,专注于探索在不使用任何组注释的情况下减少CLIP对虚假特征依赖的方法。为此,我们系统地研究了CLIP和CILP+ERM上虚假相关性的存在。我们首先验证了最近关于深度特征重新加权(DFR)的工作,即通过对预训练的CLIP进行最后一层微调可以大大提高其对抗组的鲁棒性。在此基础上,我们提出了一种轻量级表示校准方法,通过首先使用预训练的CLIP生成一个校准集,然后通过对比学习校准该集合内样本的表示,而无需使用组标签。在几个基准测试上进行的广泛实验和深入的可视化验证了我们提出的方法的有效性,大大减少了模型对虚假特征的依赖,并显著提高了模型的泛化性能。
  • 图表
  • 解决问题
    本文试图解决fine-tuning预训练视觉-语言模型时存在的问题:直接调整整个预训练模型耗时且计算成本高,调整后的模型过于专业化,限制了实际应用;预训练视觉-语言分类器可能过度依赖虚假特征,限制了模型的实际应用;现有的减少对虚假特征依赖的方法基于假设我们可以识别这些特征,但在实际应用中并不能提供确定性保证。
  • 关键思路
    本文提出了一种轻量级的表示校准方法,通过预训练的CLIP生成校准集,并通过对比学习校准集中样本的表示来校准表示,从而减少对虚假特征的依赖,提高模型的泛化能力。
  • 其它亮点
    本文通过实验证明,对预训练的CLIP进行最后一层重新训练可以大大提高模型的组鲁棒性;提出的表示校准方法可以在不使用组标签的情况下减少对虚假特征的依赖,显著提高模型的泛化能力。
  • 相关研究
    最近的相关研究包括Deep Feature Reweighting(DFR)和Deep Leakage from Gradients(DLG)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论