TIMA: Text-Image Mutual Awareness for Balancing Zero-Shot Adversarial Robustness and Generalization Ability

2024年05月27日
  • 简介
    本文解决了在保持零样本泛化的同时实现零样本对抗鲁棒性的挑战,重点研究了流行的对比语言-图像预训练模型(CLIP)。尽管基础模型被报道具有出色的零样本泛化能力,但它们极易受到对抗扰动的影响。现有的方法在小的对抗扰动下实现了零样本对抗鲁棒性和泛化之间的良好平衡,但在大的对抗扰动下则无法实现良好的平衡。因此,我们提出了一种新颖的文本-图像相互感知(TIMA)方法,以在零样本对抗鲁棒性和泛化之间取得平衡。更具体地说,我们提出了一种图像感知的文本(IAT)调整机制,通过融合最小超球能量(MHE)来增加文本嵌入的类间距离。同时,利用固定的预训练图像嵌入作为跨模态辅助监督,通过知识蒸馏来保持MHE调整后的文本嵌入和原始文本嵌入之间的相似性,从而保留不同类别之间的语义信息。此外,我们还引入了一种文本感知的图像(TAI)调整机制,在训练阶段通过基于文本距离的自适应边界(TAM)来增加图像嵌入之间的类间距离。同样,利用知识蒸馏来保持微调后的图像嵌入和预训练图像嵌入之间的相似性。广泛的实验结果表明了我们方法的有效性,展示了对各种对抗扰动的印象零样本性能,同时保留了原始CLIP模型的零样本泛化能力。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决大规模基础模型在保持零样本泛化能力的同时实现零样本对抗鲁棒性的挑战,特别是针对流行的对比语言-图像预训练(CLIP)模型。
  • 关键思路
    TIMA方法提出了图像感知的文本调整机制和文本感知的图像调整机制,以在保持零样本泛化能力的同时实现零样本对抗鲁棒性的良好平衡。该方法通过使用最小超球能量(MHE)增加文本嵌入的类间距离,并利用知识蒸馏来保持MHE调整后的文本嵌入和原始文本嵌入之间的相似性,从而保留不同类别之间的语义信息。同时,利用文本距离自适应边距(TAM)增加图像嵌入的类间距离,并使用知识蒸馏来保留微调后和预训练图像嵌入之间的相似性。
  • 其它亮点
    TIMA方法在广泛的对抗扰动下展现出令人印象深刻的零样本表现,并保留了原始CLIP模型的零样本泛化能力。实验结果表明该方法的有效性。论文还介绍了使用的数据集和开源代码。
  • 相关研究
    最近的相关研究包括对基础模型进行对抗训练以提高鲁棒性,以及使用元学习等技术来提高泛化能力。相关论文包括:“Adversarial Training Methods for Semi-Supervised Text Classification”和“Meta-Learning for Few-Shot Natural Language Processing”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问