ED-SAM: An Efficient Diffusion Sampling Approach to Domain Generalization in Vision-Language Foundation Models

2024年06月03日
  • 简介
    最近,视觉语言基础模型在各种感知学习任务中表现出了出色的性能。视觉语言模型的出色表现主要依赖于大规模的预训练数据集和不同的数据增强技术。然而,视觉语言基础模型的域泛化问题需要解决。这个问题已经限制了视觉语言基础模型对未知数据分布的泛化能力。在本文中,我们介绍了一种新的简单而有效的扩散采样方法来解决域泛化问题(ED-SAM),以提高视觉语言基础模型的泛化能力。我们在这项工作中的理论分析揭示了扩散模型在视觉语言基础模型中的域泛化的关键作用和关系。然后,基于深入的分析,我们介绍了一种新的简单而有效的传输变换扩散采样方法。它可以有效地生成对抗样本,以提高基础模型对未知数据分布的泛化能力。在不同规模的视觉语言预训练数据集上的实验结果,包括CC3M,CC12M和LAION400M,与其他最近的方法相比,始终展现出了该方法的最先进性能和可扩展性。
  • 图表
  • 解决问题
    解决问题的是视觉-语言基础模型的领域泛化问题,即在未知数据分布下的泛化能力。
  • 关键思路
    论文提出了一种基于扩散采样的领域泛化方法(ED-SAM),通过生成对抗样本来提高模型对未知数据分布的泛化能力。
  • 其它亮点
    论文在多个视觉-语言预训练数据集上进行了实验,包括CC3M、CC12M和LAION400M,结果显示ED-SAM方法相比其他方法具有更好的性能和可扩展性。
  • 相关研究
    最近的相关研究包括:《Learning to Learn with Feedback and Local Plasticity》、《Language Models as Few-Shot Learners》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论