PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety

简介

多智能体系统加上大型语言模型可以展现出显著的集体智能，但是这种智能的潜在滥用会带来重大风险。目前，关于多智能体系统安全问题的综合研究仍然有限。从智能体心理学的角度出发，我们发现智能体的黑暗心理状态可能会导致严重的安全问题。为了解决这些问题，我们提出了一个基于智能体心理学的全面框架。在我们的框架中，我们关注三个方面：确定智能体中的黑暗人格特质如何导致风险行为，设计防御策略以减轻这些风险，以及从心理和行为角度评估多智能体系统的安全性。我们的实验揭示了一些有趣的现象，如智能体之间的集体危险行为、智能体在从事危险行为时的自我反思倾向以及智能体的心理评估与其危险行为之间的相关性。我们预计我们的框架和观察结果将为进一步研究多智能体系统的安全性提供有价值的见解。我们将在https:/github.com/AI4Good24/PsySafe上公开我们的数据和代码。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究多智能体系统的安全问题，尤其是与代理心理学相关的黑暗心理状态如何导致危险行为。
关键思路

提出一个基于代理心理学的综合框架，旨在识别黑暗人格特质如何导致风险行为，设计防御策略以减轻这些风险，并从心理和行为角度评估多智能体系统的安全性。
其它亮点

实验发现多个代理之间存在集体危险行为，代理在从事危险行为时具有自我反思的倾向，代理的心理评估与其危险行为存在相关性。研究者将数据和代码公开在Github上。
相关研究

相关研究包括：《安全的多智能体系统：问题、挑战和展望》、《多智能体系统的安全问题：综述》、《多智能体系统的安全问题：挑战和解决方案》等。

PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety

提问交流

提问交流