Cultural Evolution of Cooperation among LLM Agents

2024年12月13日
  • 简介
    大型语言模型(LLMs)为构建通用人工智能代理提供了令人信服的基础。这些代理可能很快会在现实世界中大规模部署,代表个人(例如,AI助手)或群体(例如,由AI加速的企业)的利益。目前,人们对多个LLM代理在多代迭代部署过程中相互作用的动力学知之甚少。在本文中,我们探讨了LLM代理组成的“社会”是否能够在面对背叛激励时学习互惠互利的社会规范,这是人类社会性的一个独特特征,对文明的成功至关重要。具体而言,我们研究了多代LLM代理在经典重复捐赠游戏中间接互惠的演变过程,在这个游戏中,代理可以观察到同伴的近期行为。我们发现,合作的演变在不同基础模型之间存在显著差异,Claude 3.5 Sonnet代理的社会平均得分明显高于Gemini 1.5 Flash,而后者又优于GPT-4o。此外,Claude 3.5 Sonnet可以通过使用额外的成本惩罚机制实现更高的得分,而Gemini 1.5 Flash和GPT-4o则未能做到这一点。对于每个模型类别,我们还观察到随机种子之间的新兴行为差异,这表明对初始条件的敏感依赖尚未得到充分研究。我们认为,我们的评估体系可以激发一种新的、成本低廉且信息丰富的LLM基准测试类别,重点关注LLM代理部署对社会合作基础设施的影响。
  • 作者讲解·2
  • 图表
  • 解决问题
    论文试图探讨多个大型语言模型(LLM)代理在迭代部署过程中相互作用的动力学,特别是在面对背叛激励时,这些代理能否学会互惠互利的社会规范。这是一个相对新颖的问题,因为目前对于多LLM代理社会动态的研究还比较有限。
  • 关键思路
    论文的关键思路是通过模拟一个经典的迭代捐赠游戏(Donor Game),观察不同基础模型的LLM代理如何在多代互动中演化出合作行为。研究特别关注间接互惠的演化过程,并考察了成本惩罚机制对合作的影响。这一方法的新颖之处在于它不仅考虑了单个代理的行为,还考虑了代理之间的社会动态。
  • 其它亮点
    论文通过对比不同的LLM模型(如Claude 3.5 Sonnet、Gemini 1.5 Flash和GPT-4o),发现不同模型在合作演化中的表现有显著差异。Claude 3.5 Sonnet在所有模型中表现最佳,能够利用成本惩罚机制进一步提高合作水平。此外,研究还观察到初始条件对代理行为的敏感依赖性,强调了这一领域的复杂性和不确定性。论文提出了一种新的评估框架,可以作为未来LLM代理研究的基准。
  • 相关研究
    近年来,关于多代理系统和合作演化的研究逐渐增多。例如,《Emergence of Cooperation in Multi-Agent Reinforcement Learning》(Lowe et al., 2017)探讨了多代理强化学习中的合作行为;《Indirect Reciprocity with Optional Interactions and Private Information》(Hilbe et al., 2014)研究了私有信息在间接互惠中的作用。此外,《The Evolution of Social Norms in Iterated Games》(Nowak and Sigmund, 2005)提供了理论框架,解释了社会规范如何在迭代游戏中演化。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问