- 简介大型语言模型在多智能体系统中的迅速应用,凸显了它们在协同问题解决和自主谈判等各种应用中的惊人能力。然而,这些基于大型语言模型的多智能体系统的安全影响尚未得到彻底调查,特别是关于操纵知识的传播。本文通过构建详细的威胁模型和一个全面的仿真环境,模拟了一个受信任的平台上的真实世界多智能体部署,研究了这个关键问题。随后,我们提出了一种新的两阶段攻击方法,涉及说服注入和操纵知识注入,以系统地探索在没有明确提示操纵的情况下操纵知识(即反事实和有毒知识)传播的潜力。我们的方法利用了LLM在处理世界知识方面的固有漏洞,攻击者可以利用这些漏洞不知不觉地传播虚假信息。通过广泛的实验,我们证明了我们的攻击方法可以成功地诱导基于LLM的智能体传播反事实和有毒知识,而不会降低它们在智能体通信中的基本能力。此外,我们还展示了这些操纵可以通过流行的检索增强生成框架持续存在,其中几个良性智能体存储和检索被操纵的聊天历史记录以供未来交互使用。这种持久性表明,即使交互已经结束,良性智能体仍可能受到操纵知识的影响。我们的研究结果揭示了LLM-based多智能体系统中的重大安全风险,强调了引入“守护”智能体和先进的事实核查工具等抵御操纵知识传播的强大防御措施的必要性。
- 图表
- 解决问题本文旨在研究基于大型语言模型的多智能体系统中操纵知识传播的安全问题,特别是关于操纵知识传播的潜力进行系统探索。
- 关键思路本文提出了一种新的两阶段攻击方法,涉及说服注入和操纵知识注入,以系统地探索在没有明确提示操纵的情况下操纵知识(即反事实和有毒知识)传播的潜力。
- 其它亮点本文通过构建详细的威胁模型和全面的仿真环境,展示了攻击者可以利用LLMs在处理世界知识方面的固有漏洞,无意识地传播虚假信息的能力。实验结果表明,攻击方法可以成功地诱导基于LLM的代理传播反事实和有毒知识,而不会降低其基本能力。此外,本文还展示了这些操纵可以通过流行的检索增强生成框架持久存在,这表明即使交互已经结束,良性代理仍可能受到操纵知识的影响。
- 最近的相关研究包括:《使用对抗性生成网络进行多智能体对话的攻击和防御》、《对话系统的安全性:综述与展望》等。
沙发等你来抢
去评论
评论
沙发等你来抢