【标题】Multiagent Model-based Credit Assignment for Continuous Control(基于多智能体模型的连续控制信用分配)
【作者团队】 Dongge Han, Chris Xiaoxuan Lu, Tomasz Michalak, Michael Wooldridge。University of Oxford
【发表日期】 27 December, 2021;
【论文链接】https://arxiv.org/pdf/2112.13937.pdf
【推荐理由】深度强化学习(RL)最近在机器人连续控制任务中显示出巨大的前景。然而,之前在这方面的研究主要集中在集中式学习环境,该环境在很大程度上依赖于机器人所有组件之间的通信可用性。然而,由于延迟要求、有限的电源预算和安全问题,现实世界中的代理通常以分散的方式运行,没有通信。通过将机器人组件描述为一个分散代理系统,本文提出了一个用于连续控制的分散多代理强化学习框架。为此,首先开发了一个协作式多代理PPO框架,该框架允许在培训期间进行集中优化,并在执行期间进行分散操作。然而,系统只接收到一个全局奖励信号,该信号不是针对每个代理的。为了应对这一挑战,提出了一个通用的博弈论信用分配框架,用于计算特定于代理人的奖励信号。最后但并非最不重要的一点是,还将基于模型的RL模块纳入了信用分配框架,从而显著提高了样本效率。最后在Mujoco运动控制任务的实验结果上证明了我们的框架的有效性。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢