Chain-of-Scrutiny: Detecting Backdoor Attacks for Large Language Models

2024年06月10日
  • 简介
    后门攻击对于大型语言模型(LLMs)构成了重大威胁,尤其是随着第三方服务的兴起,这些服务提供API集成和快速工程。不可信的第三方可能会在LLMs中植入后门,并通过在用户查询中嵌入恶意指令来对用户造成风险。当嵌入一个由攻击者预先确定的特定触发器的输入时,带有后门的LLM将生成恶意输出。传统的防御策略主要涉及模型参数微调和梯度计算,但由于LLMs需要大量的计算和干净的数据,这些策略并不足够。在本文中,我们提出了一种新的解决方案,Chain-of-Scrutiny(CoS),以解决这些挑战。后门攻击从根本上创建了从触发器到目标输出的快捷方式,因此缺乏推理支持。因此,CoS指导LLMs生成输入的详细推理步骤,然后仔细检查推理过程,以确保与最终答案的一致性。任何不一致可能表明存在攻击。CoS只需要对LLM进行黑盒访问,提供了实用的防御措施,特别适用于可通过API访问的LLMs。它用户友好,使用户可以自行进行防御。由自然语言驱动,整个防御过程对用户透明。我们通过在各种任务和LLMs上进行广泛实验来验证CoS的有效性。此外,实验结果表明,CoS对于更强大的LLMs更加有益。
  • 作者讲解
  • 图表
  • 解决问题
    解决大型语言模型(LLMs)面临的后门攻击问题,提出一种新的解决方案。
  • 关键思路
    提出Chain-of-Scrutiny(CoS)方案,通过对LLMs的推理过程进行监控和验证,以检测后门攻击。
  • 其它亮点
    CoS方案只需要黑盒访问LLMs,易于用户自行操作,透明度高;实验证明CoS方案对于更强大的LLMs更为有效;
  • 相关研究
    在此领域的相关研究包括:Backdoor Attacks on Neural Network Models、Detecting Backdoor Attacks on Deep Neural Networks by Activation Clustering、Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问