PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety

简介

当多智能体系统加强了大型语言模型（LLM）时，展现出了深刻的集体智能能力。然而，这种智能被恶意利用的潜在风险带来了重大威胁。迄今为止，关于多智能体系统安全问题的综合研究仍然有限。本文通过创新的智能体心理学视角探讨这些问题，揭示了智能体的黑暗心理状态构成了重大的安全威胁。为了解决这些问题，我们提出了一个基于智能体心理学的全面框架（PsySafe），重点关注三个关键领域：首先，确定智能体中的黑暗人格特质如何导致风险行为；其次，从心理和行为角度评估多智能体系统的安全性；第三，制定有效的策略来缓解这些风险。我们的实验揭示了一些有趣的现象，例如智能体之间的集体危险行为、智能体在从事危险行为时的自我反思以及智能体的心理评估与危险行为之间的相关性。我们预计我们的框架和观察结果将为进一步研究多智能体系统的安全性提供有价值的见解。我们将在https://github.com/AI4Good24/PsySafe上公开我们的数据和代码。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

多智能体系统中存在的安全问题，尤其是与代理心理学相关的问题
关键思路

通过代理心理学的视角，提出了一个全面的框架（PsySafe）来评估和减轻多智能体系统的安全风险，重点关注代理的黑暗心理状态和可能导致的危险行为
其它亮点

实验揭示了多个有趣的现象，如代理之间的危险行为，代理在从事危险行为时的自我反省以及代理的心理评估与危险行为之间的相关性。研究者将数据和代码公开在 https://github.com/AI4Good24/PsySafe。
相关研究

近期的相关研究包括《Multi-Agent Systems: A Survey》、《A Survey of Multi-Agent Systems: State-of-the-Art and Future Directions》等。

PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety

提问交流

提问交流