- 简介我们的研究表明,多智能体强化学习(MARL)方法在零和或正和游戏中有效,但在合作对于实现全局最优结果至关重要的一般和游戏中往往会产生次优结果。矩阵游戏社会困境抽象了一般和互动的关键方面,如合作、风险和信任,但未能模拟现实场景中的时间和空间动态。因此,我们的研究将矩阵游戏社会困境扩展到更复杂、高维的MARL环境中。我们将Stag Hunt困境的网格世界实现进行了改进,以更接近一次性矩阵游戏的决策空间,同时引入了可变环境复杂性。我们的发现表明,随着复杂性的增加,训练在这些环境中的MARL代理会收敛于次优策略,与矩阵游戏中发现的风险主导的Nash均衡策略一致。我们的工作强调了环境复杂性对于在高维博弈论MARL环境中实现最优结果的影响。
-
- 图表
- 解决问题论文尝试解决多智能体强化学习在博弈中合作问题的局限性,特别是在高维度的环境中。
- 关键思路论文通过将矩阵博弈社会困境扩展到更复杂、更高维度的多智能体强化学习环境中,探究环境复杂度对于实现最优结果的影响。
- 其它亮点论文设计了一个基于Stag Hunt困境的网格世界实现,并引入了可变的环境复杂度。实验结果表明,随着环境复杂度的增加,MARL代理收敛于次优策略,与矩阵博弈中的风险主导纳什均衡策略一致。
- 最近的相关研究包括:《Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms》、《Cooperative Multi-Agent Control Using Deep Reinforcement Learning》、《Multi-Agent Reinforcement Learning with Sequential Social Dilemmas and Population Dynamics》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流