Hidden You Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Logic Chain Injection

2024年04月07日
  • 简介
    本文提出了一种新型越狱攻击,可以欺骗语言模型(LLMs)生成恶意内容,并且不仅可以欺骗LLMs,还可以欺骗人类(即安全分析师)。现有的越狱攻击可以成功欺骗LLMs,但无法欺骗人类。我们的想法借鉴了社会心理学的关键见解——如果谎言隐藏在真相中,人们很容易被欺骗。基于这个见解,我们提出了逻辑链注入攻击,将恶意意图注入到良性真相中。逻辑链注入攻击首先将其恶意目标伪装成一系列良性叙述,然后将这些叙述分布到相关的良性文章中,以不容置疑的事实为基础。通过这种方式,新生成的提示不仅可以欺骗LLMs,还可以欺骗人类。
  • 图表
  • 解决问题
    本论文旨在提出一种新型的破解攻击方法,可以欺骗语言模型并欺骗人类安全分析师。
  • 关键思路
    该论文提出了逻辑链注入攻击的概念,通过将恶意目标分解为一系列良性叙述,并将这些叙述分发到相关的良性文章中,以不容置疑的事实欺骗人类和语言模型。
  • 其它亮点
    论文使用了社会心理学的洞察力,即如果谎言隐藏在真相中,人类很容易被欺骗。实验结果表明,逻辑链注入攻击可以成功地欺骗语言模型和人类安全分析师。本文的方法在安全领域中具有重要意义,值得进一步研究。
  • 相关研究
    近期的相关研究包括:1. Adversarial Attacks on Neural Networks for Graph Data: A Survey;2. A Survey on Adversarial Attacks and Defenses in Text;3. Adversarial Attacks on Deep Learning Models for Text Classification: A Survey。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论