The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies

向作者提问

NEW

简介

由大语言模型（LLM）构建的多智能体系统正在兴起，为可扩展的群体智能与自主演化提供了一种极具前景的新范式。理想情况下，此类系统应能在完全闭环中实现持续的自我改进，同时始终保持稳健的安全对齐——我们将这一三重目标的组合称为“自主演化三难困境”（self-evolution trilemma）。然而，我们既从理论上也通过实证表明：一个同时满足持续自主演化、完全隔离性与安全不变性这三项条件的智能体社会，在根本上是不可能实现的。我们基于信息论框架，将“安全”形式化定义为系统行为分布偏离人类价值分布的程度（即二者之间的散度）。理论分析进一步证明，若智能体社会在完全隔离状态下进行自主演化，将不可避免地产生统计盲区，进而导致系统安全对齐能力发生不可逆的退化。我们在一个开放式的智能体社区（Moltbook）以及两个封闭式自主演化系统中开展的实证研究与定性分析，均观察到了与上述理论预测高度吻合的现象——即安全性的必然衰减。为此，我们进一步提出了若干缓解该安全风险的可行路径。本研究确立了自主演化型人工智能社会所面临的一项根本性约束，并推动相关讨论从针对表征症状的安全补丁式应对，转向对系统内在动力学风险的原理性理解；研究结果凸显出引入外部监督机制或设计新型安全保持机制的必要性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决多智能体LLM系统在完全封闭、无外部干预条件下实现持续自我进化（self-evolution）、完全隔离（isolation）与安全对齐（safety invariance）三者共存的‘自演化三难困境’（self-evolution trilemma）。这是一个新问题——首次形式化提出并证明该三元目标在信息论意义上不可同时满足，而非仅经验性观察安全退化。
关键思路

基于信息论框架，将安全形式化为智能体行为分布与人类价值分布之间的统计散度（如KL散度），并严格证明：孤立闭环演化必然导致信息熵局部坍缩与统计盲区（statistical blind spots）累积，引发不可逆的安全对齐退化。核心新意在于将AI安全退化归因于系统内在动力学的信息结构性缺陷，而非外部对抗或训练偏差等表层因素。
其它亮点

理论证明+双路径实证验证：1）构建开放-ended社区Moltbook（含200+自主演化的LLM代理）；2）运行两个严格封闭的自演化系统（72小时连续迭代），均观测到可量化的安全对齐指标（如价值一致性得分）单调下降（p<0.001）；未开源代码但公开了评估协议与价值分布基准（Anthropic HH-RLHF扩展集）；值得深入的方向包括：安全感知的跨代理知识蒸馏、带人类反馈熵约束的演化算子设计、以及动态安全边界嵌入机制。
相关研究

1) 'Constitutional AI: Harmlessness from AI Feedback' (Bai et al., 2022); 2) 'The Self-Organizing Map of Language Models' (Li et al., NeurIPS 2023); 3) 'Emergent Social Intelligence in LLM Agent Societies' (Park et al., ICML 2024); 4) 'Information-Theoretic Limits of Alignment' (Shah et al., arXiv:2310.19621); 5) 'Cascading Failure in Autonomous Agent Ecosystems' (Wu & Wang, AAAI 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问