- 简介后门攻击对于大型语言模型(LLMs)构成了重大威胁,尤其是随着第三方服务的兴起,这些服务提供API集成和快速工程。不可信的第三方可能会在LLMs中植入后门,并通过在用户查询中嵌入恶意指令来对用户造成风险。当嵌入一个由攻击者预先确定的特定触发器的输入时,带有后门的LLM将生成恶意输出。传统的防御策略主要涉及模型参数微调和梯度计算,但由于LLMs需要大量的计算和干净的数据,这些策略并不足够。在本文中,我们提出了一种新的解决方案,Chain-of-Scrutiny(CoS),以解决这些挑战。后门攻击从根本上创建了从触发器到目标输出的快捷方式,因此缺乏推理支持。因此,CoS指导LLMs生成输入的详细推理步骤,然后仔细检查推理过程,以确保与最终答案的一致性。任何不一致可能表明存在攻击。CoS只需要对LLM进行黑盒访问,提供了实用的防御措施,特别适用于可通过API访问的LLMs。它用户友好,使用户可以自行进行防御。由自然语言驱动,整个防御过程对用户透明。我们通过在各种任务和LLMs上进行广泛实验来验证CoS的有效性。此外,实验结果表明,CoS对于更强大的LLMs更加有益。
-
- 图表
- 解决问题解决大型语言模型(LLMs)面临的后门攻击问题,提出一种新的解决方案。
- 关键思路提出Chain-of-Scrutiny(CoS)方案,通过对LLMs的推理过程进行监控和验证,以检测后门攻击。
- 其它亮点CoS方案只需要黑盒访问LLMs,易于用户自行操作,透明度高;实验证明CoS方案对于更强大的LLMs更为有效;
- 在此领域的相关研究包括:Backdoor Attacks on Neural Network Models、Detecting Backdoor Attacks on Deep Neural Networks by Activation Clustering、Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流