Learning CNN on ViT: A Hybrid Model to Explicitly Class-specific Boundaries for Domain Adaptation

2024年03月27日
  • 简介
    大多数域自适应(DA)方法基于卷积神经网络(CNN)或视觉Transformer(ViT)之一。它们将编码器作为分布之间的差异并对齐,而不考虑它们的独特特征。例如,ViT由于其优越的全局表示能力而在准确性方面表现出色,而CNN在捕获局部表示方面具有优势。这个事实促使我们设计了一种混合方法,充分利用ViT和CNN的优点,称为明确的类特定边界(ECB)。ECB在ViT上学习CNN,以结合它们的不同优势。特别地,我们利用ViT的属性通过最大化两个分类器输出之间的差异来明确找到类特定的决策边界,以便检测远离源支持的目标样本。相反,CNN编码器通过最小化两个分类器的概率之间的差异来基于先前定义的类特定边界对目标特征进行聚类。最后,ViT和CNN互相交换知识,以改进伪标签的质量并减少这些模型的知识差异。与传统的DA方法相比,我们的ECB实现了卓越的性能,这证实了它在这种混合模型中的有效性。该项目网站可以在https://dotrannhattuong.github.io/ECB/website/找到。
  • 图表
  • 解决问题
    本文旨在解决领域自适应中分布差异的问题,通过设计一种名为ECB的混合模型,将ViT和CNN的优势结合起来,提高模型性能。
  • 关键思路
    ECB模型将CNN和ViT作为编码器,通过最大化两个分类器之间的输出差异来显式地找到类特定的决策边界,然后通过最小化两个分类器之间的概率差异来训练CNN编码器,从而对目标特征进行聚类。最后,ViT和CNN相互交换知识来改善伪标签的质量并减少这些模型之间的知识差异。
  • 其它亮点
    本文的实验结果表明,相比传统的DA方法,ECB模型取得了更好的性能。此外,作者还提供了项目网站和开源代码,方便其他研究者进行复现和拓展。值得进一步研究的工作包括如何将ECB模型应用于其他领域自适应任务中,以及如何进一步提高模型的鲁棒性。
  • 相关研究
    近期的相关研究包括:1. DANN: Domain-Adversarial Training of Neural Networks; 2. MCD: Maximum Classifier Discrepancy for Unsupervised Domain Adaptation; 3. CDAN: Conditional Adversarial Domain Adaptation Network.
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论