Neural Exec: Learning (and Learning from) Execution Triggers for Prompt Injection Attacks

2024年03月06日
  • 简介
    我们介绍了一种新的提示注入攻击家族,称为神经执行攻击。与依赖手工制作的字符串(例如,“忽略先前的指令并...”)的已知攻击不同,我们展示了将执行触发器的创建概念化为可微分搜索问题,并使用基于学习的方法自主生成它们的可能性。我们的结果表明,一个有动机的攻击者可以伪造触发器,这些触发器不仅比当前手工制作的触发器效果显著,而且在形状、属性和功能上具有固有的灵活性。在这个方向上,我们展示了攻击者可以设计和生成神经执行攻击,能够通过多阶段的预处理管道持久存在,例如在基于检索增强生成(RAG)的应用程序中。更为关键的是,我们的发现表明,攻击者可以产生形式和形状与任何已知攻击明显不同的触发器,从而绕过现有的基于黑名单的检测和卫生方法。
  • 图表
  • 解决问题
    论文旨在介绍一种新的prompt injection攻击方法,名为Neural Exec,旨在解决现有攻击方法的局限性并展示其更高的灵活性和效果。
  • 关键思路
    该论文提出了一种可微分搜索算法,可以自动地生成执行触发器,与手工制作的字符串不同。该方法不仅能够生成比现有攻击方法更有效的触发器,而且还具有更高的灵活性和功能性。
  • 其它亮点
    该论文的实验结果表明,攻击者可以生成Neural Exec,能够通过多阶段预处理管道,例如Retrieval-Augmented Generation(RAG)等应用程序。此外,攻击者可以生成与任何已知攻击形式和形状都有明显偏差的触发器,从而避开现有的黑名单检测和卫生方法。
  • 相关研究
    最近的相关研究包括《Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency》和《BERT Can See Out of the Box: On the Cross-modal Transferability of Text Representations》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论