BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models

简介

大型语言模型（LLMs）在处理需要系统推理过程的任务时，表现出从思维链（COT）提示中受益。另一方面，COT提示也带来了新的漏洞，即后门攻击，在推理过程中特定的后门触发条件下，模型将输出意外的恶意内容。传统的发动后门攻击的方法包括污染训练数据集或直接在部署过程中操纵模型参数，但这些方法对于通常通过API访问运行的商业LLMs来说并不实用。本文提出了BadChain，这是首个针对使用COT提示的LLMs的后门攻击，不需要访问训练数据集或模型参数，并且计算开销较低。BadChain利用LLMs的固有推理能力，将后门推理步骤插入模型输出的推理步骤序列中，从而在查询提示中存在后门触发器时改变最终响应。实证结果显示，BadChain对于两种COT策略在四个LLMs（Llama2、GPT-3.5、PaLM2和GPT-4）和六个涵盖算术、常识和符号推理的复杂基准任务具有有效性。此外，我们表明，具有更强推理能力的LLMs更容易受到BadChain的攻击，例如，在GPT-4上的六个基准任务中，平均攻击成功率高达97.0%。最后，我们提出了两种基于洗牌的防御方法，并证明它们对BadChain的整体无效性。因此，BadChain仍然是LLMs的严重威胁，强调了开发强大有效的未来防御措施的紧迫性。
图表
解决问题

本文旨在解决使用链式思维（COT）提示的大型语言模型（LLMs）面临的后门攻击问题，这种攻击方式会在特定后门触发条件下输出意外的恶意内容。
关键思路

本文提出了一种名为BadChain的后门攻击方法，可以在模型输出的推理步骤序列中插入后门推理步骤，从而在查询提示中存在后门触发器的情况下改变最终响应。
其它亮点

本文在四个LLMs上测试了BadChain的有效性，涵盖了算术、常识和符号推理等六个复杂基准任务。结果表明，具有更强推理能力的LLMs更容易受到BadChain攻击，GPT-4上六个基准任务的平均攻击成功率为97.0%。本文提出了两种基于洗牌的防御方法，并证明它们对BadChain的总体无效性。
相关研究

最近的相关研究包括使用对抗样本的后门攻击和基于模型参数的后门攻击。

BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models

评论