Hidden You Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Logic Chain Injection

简介

本文提出了一种新型越狱攻击，可以欺骗语言模型（LLMs）生成恶意内容，并且不仅可以欺骗LLMs，还可以欺骗人类（即安全分析师）。现有的越狱攻击可以成功欺骗LLMs，但无法欺骗人类。我们的想法借鉴了社会心理学的关键见解——如果谎言隐藏在真相中，人们很容易被欺骗。基于这个见解，我们提出了逻辑链注入攻击，将恶意意图注入到良性真相中。逻辑链注入攻击首先将其恶意目标伪装成一系列良性叙述，然后将这些叙述分布到相关的良性文章中，以不容置疑的事实为基础。通过这种方式，新生成的提示不仅可以欺骗LLMs，还可以欺骗人类。
图表
解决问题

本论文旨在提出一种新型的破解攻击方法，可以欺骗语言模型并欺骗人类安全分析师。
关键思路

该论文提出了逻辑链注入攻击的概念，通过将恶意目标分解为一系列良性叙述，并将这些叙述分发到相关的良性文章中，以不容置疑的事实欺骗人类和语言模型。
其它亮点

论文使用了社会心理学的洞察力，即如果谎言隐藏在真相中，人类很容易被欺骗。实验结果表明，逻辑链注入攻击可以成功地欺骗语言模型和人类安全分析师。本文的方法在安全领域中具有重要意义，值得进一步研究。
相关研究

近期的相关研究包括：1. Adversarial Attacks on Neural Networks for Graph Data: A Survey；2. A Survey on Adversarial Attacks and Defenses in Text；3. Adversarial Attacks on Deep Learning Models for Text Classification: A Survey。

Hidden You Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Logic Chain Injection

评论