- 简介无监督领域自适应(UDA)已成为解决标记源域和未标记目标域之间差异的流行解决方案。最近,一些研究工作开始利用大型视觉语言模型(如CLIP)进行微调或从中学习提示,以解决具有挑战性的UDA任务。在本研究中,我们转向一个新的方向,通过直接利用CLIP来衡量领域差异,并提出了一种新颖的语言引导方法来解决UDA问题,称为CLIP-Div。我们的关键思想是利用CLIP来1)通过获取的领域无关分布来衡量领域差异,以及2)通过语言引导来校准目标伪标签,以有效减少领域差距并提高UDA模型的泛化能力。具体而言,我们的主要技术贡献在于提出了两个新颖的语言引导领域差异测量损失:绝对差异和相对差异。这些损失项为将源域和目标域的分布与从CLIP派生的领域无关分布对齐提供了精确的指导方针。此外,我们提出了一种语言引导的伪标签策略,用于校准目标伪标签。在此基础上,我们展示了自训练的进一步实现如何增强UDA模型在目标域的泛化能力。CLIP-Div在Office-Home上的表现优于最先进的基于CNN的方法10.3%,在Office-31上优于1.5%,在VisDA-2017上优于0.2%,在DomainNet上优于24.3%。
- 解决问题本文旨在解决标注源域和未标注目标域之间的差异问题,提出了一种新的语言引导的领域自适应方法。
- 关键思路本文的关键思路是直接利用CLIP来测量域差异,并提出了两种新的语言引导的领域差异测量损失:绝对差异和相对差异。此外,还提出了一种语言引导的伪标签策略,用于校准目标伪标签。
- 其它亮点本文提出的CLIP-Div方法在Office-Home、Office-31、VisDA-2017和DomainNet数据集上均超过了目前基于CNN的方法,取得了显著的性能提升。实验结果表明,使用自我训练可以进一步提高目标域上的泛化能力。
- 在这个领域中,一些相关研究包括:Unsupervised Domain Adaptation by Backpropagation、Deep Adaptation Networks、Learning Transferable Features with Deep Adaptation Networks等。
沙发等你来抢
去评论
评论
沙发等你来抢