Test-time Backdoor Mitigation for Black-Box Large Language Models with Defensive Demonstrations

简介

现有的后门防御研究主要集中在训练阶段，忽略了测试时间防御的关键方面。在部署为Web服务的大型语言模型（LLMs）的情况下，这种差距尤为明显，这些模型通常只提供黑盒访问，使得训练时间的防御变得不切实际。为了弥合这一差距，我们的工作引入了防御演示，这是一种创新的黑盒大型语言模型后门防御策略。我们的方法涉及识别任务并从未被污染的池中检索与任务相关的演示。然后将这些演示与用户查询组合，并在测试期间呈现给模型，而无需对黑盒模型进行任何修改/调整或了解其内部机制。防御演示旨在抵消触发器的不良影响，旨在在测试时评估期间重新校准和纠正受污染的模型的行为。广泛的实验表明，防御演示在防御实例级和指令级后门攻击方面都是有效的，不仅可以纠正受污染模型的行为，而且在大多数情况下还超过了现有的基线。
图表
解决问题

论文试图解决测试时防御黑盒大语言模型中的后门攻击问题，填补了当前主要关注训练阶段的防御研究的空白。同时，该方法不需要对黑盒模型进行修改或调整。
关键思路

论文提出了一种新颖的防御策略——防御演示，通过识别任务并从未被污染的演示池中检索任务相关的演示，将这些演示与用户查询组合，并在测试期间呈现给模型，以抵消触发器的不良影响，从而在测试时评估中重新校准和纠正被污染模型的行为。
其它亮点

论文的实验表明，防御演示在防御实例级和指令级后门攻击方面都很有效，不仅可以纠正被污染模型的行为，而且在大多数情况下甚至超过了现有的基线。此外，论文还提供了数据集和代码，以便其他研究人员可以重现和扩展这项工作。
相关研究

最近在这个领域中，还有一些相关的研究，如《Defending Against Backdoor Attacks in Federated Learning with Robust Aggregation》、《Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks》等。

Test-time Backdoor Mitigation for Black-Box Large Language Models with Defensive Demonstrations

评论