Chain-of-Scrutiny: Detecting Backdoor Attacks for Large Language Models

简介

后门攻击对于大型语言模型（LLMs）构成了重大威胁，尤其是随着第三方服务的兴起，这些服务提供API集成和快速工程。不可信的第三方可能会在LLMs中植入后门，并通过在用户查询中嵌入恶意指令来对用户造成风险。当嵌入一个由攻击者预先确定的特定触发器的输入时，带有后门的LLM将生成恶意输出。传统的防御策略主要涉及模型参数微调和梯度计算，但由于LLMs需要大量的计算和干净的数据，这些策略并不足够。在本文中，我们提出了一种新的解决方案，Chain-of-Scrutiny（CoS），以解决这些挑战。后门攻击从根本上创建了从触发器到目标输出的快捷方式，因此缺乏推理支持。因此，CoS指导LLMs生成输入的详细推理步骤，然后仔细检查推理过程，以确保与最终答案的一致性。任何不一致可能表明存在攻击。CoS只需要对LLM进行黑盒访问，提供了实用的防御措施，特别适用于可通过API访问的LLMs。它用户友好，使用户可以自行进行防御。由自然语言驱动，整个防御过程对用户透明。我们通过在各种任务和LLMs上进行广泛实验来验证CoS的有效性。此外，实验结果表明，CoS对于更强大的LLMs更加有益。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

解决大型语言模型（LLMs）面临的后门攻击问题，提出一种新的解决方案。

关键思路

提出Chain-of-Scrutiny（CoS）方案，通过对LLMs的推理过程进行监控和验证，以检测后门攻击。

其它亮点

CoS方案只需要黑盒访问LLMs，易于用户自行操作，透明度高；实验证明CoS方案对于更强大的LLMs更为有效；

Chain-of-Scrutiny: Detecting Backdoor Attacks for Large Language Models

提问交流

提问交流