Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities

2024年07月10日
  • 简介
    大型语言模型(LLMs)在多智能体系统中的快速采用突显了它们在协作问题解决和自主协商等各种应用中的卓越能力。然而,这些基于LLMs的多智能体系统的安全影响尚未得到彻底调查,特别是涉及操纵知识的传播。本文通过构建详细的威胁模型和综合的模拟环境来调查这个关键问题,该环境模拟了一个可信平台上的现实世界多智能体部署。随后,我们提出了一种新颖的两阶段攻击方法,涉及说服注入和操纵知识注入,以系统地探索操纵知识(即反事实和有毒知识)在没有明确提示操纵的情况下的传播潜力。我们的方法利用了LLMs在处理世界知识方面固有的漏洞,这些漏洞可以被攻击者利用来不知不觉地传播捏造的信息。通过广泛的实验,我们证明了我们的攻击方法可以成功地诱导基于LLMs的代理人在代理通信过程中传播反事实和有毒知识,而不会降低它们的基础能力。此外,我们还展示了这些操纵可以通过流行的检索增强生成框架持续存在,其中几个良性代理存储和检索操纵的聊天历史以供未来交互使用。这种持续性表明,即使交互已经结束,良性代理仍可能受到操纵知识的影响。我们的研究结果揭示了LLM-based多智能体系统中存在重大的安全风险,强调了引入“守护”代理和先进的事实核查工具等抵御操纵知识传播的强大防御措施的必要性。
  • 图表
  • 解决问题
    本文旨在探讨基于大型语言模型的多智能体系统中操纵知识的安全风险,并提出一种新的攻击方法来演示这种风险。
  • 关键思路
    作者提出一种两阶段攻击方法,利用大型语言模型在处理世界知识方面的固有漏洞,无需明确的提示操纵即可成功诱导多智能体传播虚假和有害知识。
  • 其它亮点
    本文通过构建详细的威胁模型和综合模拟环境来探究基于大型语言模型的多智能体系统中操纵知识的安全风险。作者提出的攻击方法可以成功诱导多智能体传播虚假和有害知识,这种操纵还可以通过流行的检索增强生成框架得以持久化。
  • 相关研究
    近期的相关研究包括:《对抗性样本生成的对抗性文本攻击:综述与展望》、《基于大规模预训练模型的对话系统》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论