- 简介达成共识是多智能体协调的关键。为了完成合作任务,智能体需要协调地选择最优的联合行动,以最大化团队奖励。然而,目前的合作多智能体强化学习(MARL)方法通常不明确考虑共识,这可能会导致协调问题。在本文中,我们提出了一种基于模型的共识机制来明确协调多个智能体。所提出的多智能体目标想象(MAGI)框架通过想象一个共同的目标来引导智能体达成共识。共同的目标是一个具有高价值的可达状态,该状态是通过从未来状态的分布中进行采样获得的。我们使用自监督生成模型直接对这个分布进行建模,从而缓解了模型方法中常见的多智能体多步策略展开引起的“维度灾难”问题。我们证明了这种高效的共识机制可以指导所有智能体协作地达到有价值的未来状态。在多智能体粒子环境和Google Research足球环境中的结果表明,MAGI在样本效率和性能方面都具有优越性。
- 图表
- 解决问题解决多智能体协调中的共识问题,通过提出基于模型的共识机制,引导多个智能体协调达成共同目标。
- 关键思路提出了一种基于想象的共同目标的共识机制,通过自监督生成模型来直接建模多智能体多步策略展开中的未来状态分布,从而引导智能体达成共识。
- 其它亮点论文提出的MAGI框架在多智能体环境和Google Research Football环境中都表现出了更高的样本效率和性能,实验结果证明了该方法的优越性。
- 近期的相关研究包括:Multi-Agent Reinforcement Learning (MARL)、Model-Based Reinforcement Learning、Generative Models for RL。
沙发等你来抢
去评论
评论
沙发等你来抢