摘要:为了解决复杂环境中的任务,机器人需要学习经验。深度强化学习是机器人学习的常用方法但需要大量的反复试验才能学习,限制了其在物理世界。因此,机器人学习的许多进步都依赖于模拟器。另一方面,在模拟器内部学习无法捕捉到现实世界的复杂性,容易出现模拟器不准确,以及由此产生的行为不适应世界的变化。DayDreamer 算法最近通过计划从少量互动中学习表现出巨大的希望在学习的世界模型中,在视频中优于纯强化学习游戏。学习世界模型来预测潜在行动的结果可以在想象中进行规划,减少所需的试错次数在真实环境中。

本文中,我们将 Dreamer 应用到 4 个机器人上在线学习,直接在现实世界中学习,无需任何模拟器。一个四足机器人,可以从背上滚下来,站起来,从头开始走路,只需 1 小时即可重置。然后我们推机器人,发现 DayDreamer 在 10分钟来承受扰动或快速翻身并站起来。在两个不同的机械臂,DayDreamer  学会直接拾取和放置多个物体从相机图像和稀疏的奖励,接近人类的表现。在一个轮式机器人上,DayDreamer 仅通过摄像头学习导航到目标位置图像,自动解决关于机器人方向的歧义问题。使用在所有实验中使用相同的超参数,我们发现 DayDreamer  能够现实世界中的在线学习,建立了强大的基线模型。我们发布我们的基础设施,用于未来将世界模型应用于机器人学习。视频可在项目网站上找到:

 视频地址:https://danijar.com/daydreamer

论文地址:https://arxiv.org/pdf/2206.14176.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除