Test-Time Backdoor Attacks on Multimodal Large Language Models

2024年02月13日
  • 简介
    本文介绍了一种名为AnyDoor的测试时间后门攻击方法,针对多模态大型语言模型(MLLMs),通过在文本模态中注入后门,使用共享相同通用扰动的对抗测试图像来激活预定的有害效果,而无需访问或修改训练数据。AnyDoor采用了类似于通用对抗攻击的技术,但其独特之处在于能够分离有害效果设置和激活的时间。在实验中,作者验证了AnyDoor对流行的MLLMs,如LLaVA-1.5、MiniGPT-4、InstructBLIP和BLIP-2的有效性,并提供了全面的消融研究。值得注意的是,由于后门是通过通用扰动注入的,AnyDoor可以动态更改其后门触发提示/有害效果,这为防御后门攻击带来了新的挑战。作者的项目页面位于https://sail-sg.github.io/AnyDoor/。
  • 图表
  • 解决问题
    该论文试图通过注入后门攻击来测试多模态大语言模型,以验证其鲁棒性。同时,该论文还尝试解决后门攻击的新挑战,即通过通用扰动注入后门,使攻击者可以动态更改后门触发提示/有害效果。
  • 关键思路
    该论文提出了一种名为AnyDoor的测试时间后门攻击方法,通过在文本模态中注入后门,并使用对抗性测试图像(共享相同的通用扰动)来实现,而无需访问或修改训练数据。AnyDoor采用了通用对抗性攻击中使用的类似技术,但其独特之处在于其能够分离有害效果的设置和激活的时间。
  • 其它亮点
    该论文对流行的多模态大语言模型进行了全面的实验验证,包括LLaVA-1.5、MiniGPT-4、InstructBLIP和BLIP-2,并提供了全面的剖析研究。由于后门是通过通用扰动注入的,因此AnyDoor可以动态更改其后门触发提示/有害效果,这是防御后门攻击的一个新挑战。该论文的项目页面提供了开源代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Universal Adversarial Triggers for Attacking and Analyzing NLP》、《TextBugger: Generating Adversarial Text Against Real-world Applications》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论