- 简介样本效率仍然是多智能体强化学习(MARL)中的一个关键挑战。一种有前途的方法是通过辅助学习目标来学习有意义的潜在表示空间,以帮助学习成功的控制策略。在我们的工作中,我们提出了MAPO-LSO(具有潜在空间优化的多智能体策略优化),它应用了一种全面的表示学习方法来补充MARL训练。具体而言,MAPO-LSO提出了一种多智能体扩展的转换动态重建和自预测学习,构建了一个潜在状态优化方案,可以轻松地扩展到当前最先进的MARL算法。实证结果表明,与其没有任何额外MARL超参数调整的普通MARL对比,MAPO-LSO在各种MARL任务的样本效率和学习性能方面均有显着改进。
- 图表
- 解决问题本论文旨在解决多智能体强化学习(MARL)中的样本效率问题。论文提出通过辅助学习目标学习有意义的潜在表示空间,以帮助学习成功的控制策略。
- 关键思路MAPO-LSO是一种综合表示学习方法,它提出了一种多智能体扩展的转换动态重构和自预测学习方法,构建了一个潜在状态优化方案,可以轻松地扩展到当前最先进的MARL算法。
- 其它亮点MAPO-LSO在多个MARL任务中展现出了显著的样本效率和学习性能提升。实验结果显示,相比于没有任何额外MARL超参数调整的普通MARL对照组,MAPO-LSO可以显著提高学习效率和性能。论文使用了多个数据集,并提供了开源代码。
- 最近的相关研究包括:Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments、Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms、Multi-Agent Reinforcement Learning with Communication Constraints等。
沙发等你来抢
去评论
评论
沙发等你来抢