【标题】Centralizing State-Values in Dueling Networks for Multi-Robot Reinforcement Learning Mapless Navigation(多机器人强化学习无障碍导航决斗网络的集中状态值)

【作者团队】 Enrico Marchesini, Alessandro Farinelli。University of Verona。

【发表日期】 16 December, 2021

【论文链接】https://arxiv.org/pdf/2112.09012.pdf

【推荐理由】本文研究了流行的集中训练和分散执行(CTDE)模式下的多机器人mapless导航问题。当每个机器人考虑其路径而不与其他机器人明确共享观测值时,该问题具有挑战性,并可能导致深度强化学习(DRL)中的非平稳问题。典型的CTDE算法将联合行动价值函数分解为单独的行动价值函数,以利于合作并实现分散执行。这种因式分解涉及限制个体中出现新行为的约束(例如,单调性),因为每个代理都是从联合动作值开始训练的。相比之下,本文提出了一种新的CTDE体系结构,该体系结构使用集中式状态值网络来计算联合状态值,用于在基于值的代理更新中注入全局状态信息。因此,考虑到环境的整体状态,每个模型计算其权重的梯度更新。本文的想法遵循了决斗网络的观点,因为对关节状态值的单独估计既有提高样本效率的优势,又能为每个机器人提供全局状态是否有价值的信息。在2个、4个和8个机器人的机器人导航任务中进行的实验,证实了方法比以前的CTDE方法(例如VDN、QMIX)具有更高的性能。

内容中包含的图片若涉及版权问题,请及时与我们联系删除