- 简介最近的研究表明,视觉语言(VL)模型在图像-文本检索(ITR)方面容易受到对抗性攻击。然而,现有的VL模型防御策略主要集中在零样本图像分类上,没有考虑到图像和文本的同时操纵,以及ITR固有的多对多(N:N)关系,其中一个图像可以用多种方式描述,反之亦然。因此,本文首次研究了针对ITR的VL模型的对抗攻击防御策略。特别是,我们关注如何利用ITR中的N:N关系来增强对抗鲁棒性。我们发现,虽然对抗训练容易过度拟合训练数据中特定的一对一(1:1)图像-文本对,但采用多样化的增强技术创建一对多(1:N)/多对一(N:1)图像-文本对可以显著提高VL模型的对抗鲁棒性。此外,我们还表明,增强图像-文本对的对齐对防御策略的有效性至关重要,不恰当的增强甚至可能降低模型的性能。基于这些发现,我们提出了一种新的防御策略,利用ITR中的N:N关系,通过基本增强和生成模型增强有效地生成多样化但高度对齐的N:N对。这项工作为防御VL任务中的对抗攻击提供了新的视角,并为未来的研究方向开辟了新的方向。
- 图表
- 解决问题本文旨在研究如何增强视觉语言模型对于图像-文本检索任务中的对抗攻击鲁棒性,通过利用图像和文本之间的多对多关系来提高防御能力。
- 关键思路本文提出了一种新的防御策略,通过使用基本增强和生成模型增强来生成多样化但高度对齐的多对多图像-文本对,从而提高模型的对抗鲁棒性。
- 其它亮点本文首次研究视觉语言模型在图像-文本检索任务中的对抗攻击防御策略;发现使用多样化的增强方法可以显著提高模型的对抗鲁棒性,但增强方法的对齐性对防御策略的有效性至关重要;提出了一种新的防御策略,可以生成多样化但高度对齐的多对多图像-文本对。
- 最近的相关研究主要集中在视觉语言模型的对抗攻击上,但是大多数防御策略都是针对零样本图像分类的,没有考虑图像和文本之间的多对多关系。
沙发等你来抢
去评论
评论
沙发等你来抢