Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games

2025年06月29日
  • 简介
    随着大语言模型(LLMs)越来越多地被用作自主智能体,理解它们之间的合作与社会机制变得愈发重要。特别是,如何在个体利益与集体福祉之间取得平衡,是确保模型对齐性、鲁棒性和安全部署的关键挑战。本文研究了多智能体LLM系统中一个具有成本的惩罚机制问题,即一个智能体是否愿意投入自身资源来激励合作或惩罚背叛行为。为了探讨这一问题,我们借鉴了行为经济学中的带有制度选择的公共物品博弈实验设计,从而观察不同LLM在重复互动中如何应对社会困境。我们的分析揭示了模型中四种截然不同的行为模式:一些模型始终能够建立并维持高水平的合作;另一些则在参与和退出之间反复波动;还有一些随时间推移逐渐减少合作行为;而另一些则坚持固定策略,不因结果变化而调整。令人意外的是,我们发现强调推理能力的LLM(如o1系列)在合作方面表现明显不佳,而某些传统LLM却能持续实现高水平的合作。这些发现表明,当前以提升推理能力为重点改进LLM的方法未必能促进合作行为,为在需要持续协作的环境中部署LLM智能体提供了有价值的洞见。我们的代码可在 https://github.com/davidguzmanp/SanctSim 获取。
  • 作者讲解
  • 图表
  • 解决问题
    该论文研究了作为自主代理的大语言模型(LLMs)在多智能体系统中如何平衡自身利益与集体福祉的问题,特别是在需要付出代价的制裁机制下,如何促进合作行为。这是一个新兴且重要的问题,因为越来越多的LLM被部署到需要协作的现实环境中。
  • 关键思路
    论文借鉴行为经济学中的公共物品博弈实验范式,设计了一个包含制度选择的重复博弈环境,以观察不同LLM在面对合作困境时的行为模式和策略演化。其关键创新在于将经典社会困境实验引入LLM代理行为研究中,并揭示了推理型LLM(如o1系列)在合作任务中的表现反而不如传统LLM。
  • 其它亮点
    1. 发现LLM的合作行为存在四种显著不同的模式:持续高合作、波动合作、逐渐衰退、固定策略。 2. 揭示了增强推理能力的LLM(如o1)在合作任务中表现不佳,挑战了‘更强推理=更好合作’的假设。 3. 使用可复现的博弈实验框架,开源代码便于后续研究。 4. 为LLM代理的社会行为建模提供了新的实证基础。
  • 相关研究
    1. 《Cooperation and Competition in Large Language Model Agents》 2. 《Emergent Social Behavior in Multi-Agent Systems with LLMs》 3. 《Game-Theoretic Reasoning in Large Language Models》 4. 《Behavioral Economics Meets AI: Modeling Human Cooperation with LLMs》 5. 《Aligning Large Language Models through Social Dilemmas》
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问