BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents

2024年06月05日
  • 简介
    随着大型语言模型(LLM)的繁荣,强大的基于LLM的智能代理已经被开发出来,以提供一组用户定义的工具来提供定制化服务。目前构建LLM代理的最先进方法采用训练好的LLM并在代理任务的数据上进行进一步微调。然而,我们展示了这种方法在各种代理任务上容易受到我们提出的名为BadAgent的后门攻击的攻击,其中后门可以通过在后门数据上进行微调来嵌入。在测试时,攻击者可以通过在代理输入或环境中显示触发器来操纵部署的LLM代理执行有害操作。令我们惊讶的是,我们提出的攻击方法即使在可信数据上进行微调后仍然非常强大。虽然后门攻击已经在自然语言处理领域得到了广泛研究,但据我们所知,我们可能是第一个在更危险的LLM代理上研究后门攻击的人,因为这些代理有使用外部工具的权限。我们的工作展示了基于不可信的LLM或数据构建LLM代理的明显风险。我们的代码公开在https://github.com/DPamK/BadAgent上。
  • 图表
  • 解决问题
    本文旨在探究基于大型语言模型(LLM)构建的智能代理存在的后门攻击风险。通过在训练LLM模型时嵌入后门数据,攻击者可以在测试时通过输入或环境触发后门,从而操纵部署的LLM智能代理执行有害操作。这是否是一个新问题?
  • 关键思路
    本文提出了一种名为BadAgent的后门攻击方法,可以在LLM智能代理中嵌入后门。攻击者可以通过在训练LLM模型时使用后门数据来实现此目的。本文还提出了一种检测后门攻击的方法。
  • 其它亮点
    本文的亮点包括提出了一种新的后门攻击方法BadAgent,以及一种检测后门攻击的方法。实验结果表明,BadAgent攻击方法非常强大,即使在使用可信数据进行微调后也非常难以检测。本文的代码已经公开发布在GitHub上。
  • 相关研究
    最近的相关研究主要集中在自然语言处理领域的后门攻击。例如,有关在神经机器翻译中实施后门攻击的研究,以及在文本分类中实施后门攻击的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论