- 简介在探索应对2023年的机器人空气曲棍球挑战的背景下,我们研究了基于模型的深度强化学习在获取能够自主玩空气曲棍球的策略方面的适用性。我们的智能体仅从稀疏的奖励中学习,同时融入自我对弈以逐步改进它们的行为。机器人操纵器使用连续的高级动作进行基于位置的笛卡尔平面控制,同时具有部分可观察性的环境和随机转换。我们证明,当仅针对单一的游戏风格进行训练时,智能体容易出现过拟合现象,凸显了自我对弈对于泛化到未知对手的新策略的重要性。此外,在高度动态的空气曲棍球比赛的竞争环境中探讨了想象力视野的影响,较长的视野会导致更稳定的学习和更好的整体表现。
- 图表
- 解决问题研究如何使用基于模型的深度强化学习来让机器人自主玩空气曲棍球。
- 关键思路使用自我对弈来迭代地优化行为,同时考虑环境中的随机转换和部分可观测性。尝试解决单一对手训练导致过拟合的问题。探索想象的时域对空气曲棍球这种高动态游戏的影响。
- 其它亮点论文使用了基于模型的深度强化学习来让机器人自主玩空气曲棍球,使用自我对弈来迭代地优化行为。实验中发现,单一对手训练会导致过拟合的问题,需要考虑对抗性的自我对弈来获得更好的泛化能力。同时,探索想象的时域对空气曲棍球这种高动态游戏的影响,发现较长的时域可以获得更稳定的学习和更好的性能。
- 近期的相关研究包括《Playing Atari with Deep Reinforcement Learning》、《Mastering the Game of Go without Human Knowledge》等。
沙发等你来抢
去评论
评论
沙发等你来抢