BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents

简介

随着大型语言模型（LLM）的繁荣，强大的基于LLM的智能代理已经被开发出来，以提供一组用户定义的工具来提供定制化服务。目前构建LLM代理的最先进方法采用训练好的LLM并在代理任务的数据上进行进一步微调。然而，我们展示了这种方法在各种代理任务上容易受到我们提出的名为BadAgent的后门攻击的攻击，其中后门可以通过在后门数据上进行微调来嵌入。在测试时，攻击者可以通过在代理输入或环境中显示触发器来操纵部署的LLM代理执行有害操作。令我们惊讶的是，我们提出的攻击方法即使在可信数据上进行微调后仍然非常强大。虽然后门攻击已经在自然语言处理领域得到了广泛研究，但据我们所知，我们可能是第一个在更危险的LLM代理上研究后门攻击的人，因为这些代理有使用外部工具的权限。我们的工作展示了基于不可信的LLM或数据构建LLM代理的明显风险。我们的代码公开在https://github.com/DPamK/BadAgent上。
图表
解决问题

本文旨在探究基于大型语言模型（LLM）构建的智能代理存在的后门攻击风险。通过在训练LLM模型时嵌入后门数据，攻击者可以在测试时通过输入或环境触发后门，从而操纵部署的LLM智能代理执行有害操作。这是否是一个新问题？
关键思路

本文提出了一种名为BadAgent的后门攻击方法，可以在LLM智能代理中嵌入后门。攻击者可以通过在训练LLM模型时使用后门数据来实现此目的。本文还提出了一种检测后门攻击的方法。
其它亮点

本文的亮点包括提出了一种新的后门攻击方法BadAgent，以及一种检测后门攻击的方法。实验结果表明，BadAgent攻击方法非常强大，即使在使用可信数据进行微调后也非常难以检测。本文的代码已经公开发布在GitHub上。
相关研究

最近的相关研究主要集中在自然语言处理领域的后门攻击。例如，有关在神经机器翻译中实施后门攻击的研究，以及在文本分类中实施后门攻击的研究。

BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents

评论