Population-aware Online Mirror Descent for Mean-Field Games by Deep Reinforcement Learning

2024年03月06日
  • 简介
    这篇论文介绍了一种深度强化学习算法,可以在没有对历史进行平均或采样的情况下实现基于人口的纳什均衡,从而解决了在MFGs中学习纳什均衡的难题。该算法受Munchausen RL和Online Mirror Descent的启发,通过设计一个额外的内环重放缓冲区,使代理能够有效地从任何分布中学习实现纳什均衡,缓解了灾难性遗忘的问题。得到的策略可以应用于各种初始分布。在四个经典案例的数值实验中,我们的算法比SOTA算法具有更好的收敛性能,特别是针对基于人口的策略的DRL版本的Fictitious Play算法。
  • 图表
  • 解决问题
    本文旨在解决如何在Mean Field Games(MFGs)中学习Nash均衡的问题,提出了一种深度强化学习(DRL)算法,该算法可以在不需要平均或从历史中采样的情况下实现人口依赖的Nash均衡。
  • 关键思路
    本文的关键思路是通过设计一个额外的内部循环回放缓冲区,使代理能够有效地学习如何从任何分布中实现Nash均衡,从而缓解灾难性遗忘。
  • 其它亮点
    本文的算法可以应用于各种初始分布,并且在四个标准示例上的实验表明,与现有算法相比,本文的算法具有更好的收敛性能,特别是对于人口依赖策略的Fictitious Play的DRL版本。
  • 相关研究
    最近的相关研究包括:'On the Convergence of Learning Dynamics in Fictitious Play','Deep Reinforcement Learning for Decentralized Continuous Cooperative Control'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论