【标题】Asynchronous Reinforcement Learning for Real-Time Control of Physical Robots

【作者团队】Yufeng Yuan, Rupam Mahmood

【发表日期】2022.3.23

【论文链接】https://arxiv.org/pdf/2203.12759.pdf

【推荐理由】现实世界强化学习的一个经常被忽视的挑战是,当智能体进行学习更新时,现实世界不会暂停。由于标准模拟环境没有解决学习的实时性问题,大多数RL 算法实现按顺序处理环境交互和学习更新。当在现实世界中部署此类实现时,其显着延迟的观察做出决策,而不会做出响应。已经提出异步学习来解决这个问题,但是没有使用真实环境对顺序和异步强化学习进行系统比较。本文使用机械臂设置了两个基于视觉的任务,实现了一个扩展先前架构的异步学习系统,并比较不同动作周期时间、感官数据维度和小批量大小的顺序和异步强化学习。研究表明当学习更新的时间成本增加时,顺序实现中的动作周期时间可能会增长过长,而异步实现始终可以保持适当的动作周期时间。因此,当学习更新成本高昂时,顺序学习的性能会下降,并且在很大程度上优于异步学习。该系统在两小时的经验中实时学习以达到和跟踪像素的视觉目标,并直接使用真正的机器人进行学习,完全从头开始学习。

内容中包含的图片若涉及版权问题,请及时与我们联系删除