TF-Attack: Transferable and Fast Adversarial Attacks on Large Language Models

2024年08月26日
  • 简介
    随着大型语言模型(LLMs)的巨大进步,对LLMs的对抗攻击最近引起了越来越多的关注。我们发现,现有的对抗攻击方法表现出有限的可转移性和明显的低效率,特别是当应用于LLMs时。在本文中,我们分析了先前主要的对抗攻击方法的核心机制,揭示了以下两个问题:1)重要性分数的分布在受害模型之间存在显着差异,限制了可转移性;2)顺序攻击过程导致了大量的时间开销。基于以上两个见解,我们引入了一种名为TF-Attack的新方案,用于对LLMs进行可转移和快速的对抗攻击。TF-Attack使用外部LLM作为第三方监督者,而不是受害模型来识别句子中的关键单元。此外,TF-Attack引入了重要性级别的概念,允许并行替换攻击。我们在6个广泛采用的基准测试上进行了广泛的实验,通过自动和人工指标评估了所提出的方法。结果表明,我们的方法在可转移性方面始终优于以前的方法,并提供了显着的速度改进,比先前的攻击策略快多达20倍。
  • 图表
  • 解决问题
    本论文旨在解决大型语言模型(LLMs)面临的对抗攻击问题,以及现有攻击方法的局限性和低效性。
  • 关键思路
    论文提出了一种名为TF-Attack的新方案,通过引入第三方监督模型和重要性级别的概念,实现了对LLMs的可转移和快速的对抗攻击。
  • 其它亮点
    论文通过实验验证了TF-Attack方法的有效性和高效性,并与之前的方法进行了比较。论文使用了6个广泛采用的基准数据集,并提供了开源代码。
  • 相关研究
    最近的相关研究包括:Adversarial Attacks on Neural Networks for Graph Data: An Overview和Generating Diverse and Accurate Visual Captions by Comparative Adversarial Learning等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论