- 简介本文提出了一种新型越狱攻击,可以欺骗语言模型(LLMs)生成恶意内容,并且不仅可以欺骗LLMs,还可以欺骗人类(即安全分析师)。现有的越狱攻击可以成功欺骗LLMs,但无法欺骗人类。我们的想法借鉴了社会心理学的关键见解——如果谎言隐藏在真相中,人们很容易被欺骗。基于这个见解,我们提出了逻辑链注入攻击,将恶意意图注入到良性真相中。逻辑链注入攻击首先将其恶意目标伪装成一系列良性叙述,然后将这些叙述分布到相关的良性文章中,以不容置疑的事实为基础。通过这种方式,新生成的提示不仅可以欺骗LLMs,还可以欺骗人类。
- 图表
- 解决问题本论文旨在提出一种新型的破解攻击方法,可以欺骗语言模型并欺骗人类安全分析师。
- 关键思路该论文提出了逻辑链注入攻击的概念,通过将恶意目标分解为一系列良性叙述,并将这些叙述分发到相关的良性文章中,以不容置疑的事实欺骗人类和语言模型。
- 其它亮点论文使用了社会心理学的洞察力,即如果谎言隐藏在真相中,人类很容易被欺骗。实验结果表明,逻辑链注入攻击可以成功地欺骗语言模型和人类安全分析师。本文的方法在安全领域中具有重要意义,值得进一步研究。
- 近期的相关研究包括:1. Adversarial Attacks on Neural Networks for Graph Data: A Survey;2. A Survey on Adversarial Attacks and Defenses in Text;3. Adversarial Attacks on Deep Learning Models for Text Classification: A Survey。
沙发等你来抢
去评论
评论
沙发等你来抢