- 简介我们运用多智能体深度强化学习(RL)来训练完全依靠自身计算和感知的自我中心RGB视觉机器人足球策略。这种设置反映了真实世界机器人技术的许多挑战,包括主动感知、灵活的全身控制以及在动态、部分可观测、多智能体领域中进行长期规划。我们依靠大规模的基于模拟的数据生成,通过自我中心视觉获得复杂的行为,这些行为可以通过低成本的传感器成功地转移到物理机器人中。为了达到足够的视觉真实感,我们的模拟结合了刚体物理学和通过多个神经辐射场(NeRFs)学习的逼真渲染。我们结合基于教师的多智能体RL和跨实验数据重用,以实现发现复杂的足球策略。我们分析了主动感知行为,包括物体跟踪和寻找球,这些行为仅通过优化感知不可知的足球比赛就能出现。智能体展示了与具有特权的地面真实状态访问策略相当的性能和灵活性。据我们所知,本文是首次演示了多智能体机器人足球的端到端训练,将原始像素观察映射到关节级行动,可以在现实世界中部署。游戏玩法和分析的视频可以在我们的网站上查看https://sites.google.com/view/vision-soccer。
- 图表
- 解决问题本文旨在通过多智能体深度强化学习,利用自身RGB视觉实现完全板载计算和感知的端到端机器人足球策略训练,以解决真实世界机器人面临的多项挑战。
- 关键思路本文提出的解决方案是通过大规模基于模拟的数据生成,从自我中心的视角获取复杂的行为,并通过低成本传感器将其成功地转移到物理机器人上。同时,结合了基于教师的多智能体强化学习和交叉实验数据重用的方法,实现了高级足球策略的发现。
- 其它亮点本文的亮点包括:采用多智能体深度强化学习实现端到端的机器人足球策略训练,使用自身RGB视觉实现完全板载计算和感知,通过大规模基于模拟的数据生成和低成本传感器成功地将复杂行为转移到物理机器人上,结合了基于教师的多智能体强化学习和交叉实验数据重用的方法,实现了高级足球策略的发现。
- 在这个领域中,最近的相关研究包括:《Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms》、《End-to-End Learning of Multi-Agent Systems with Limited Communication》、《Multi-Agent Reinforcement Learning with Networked Agents》等。


提问交流