- 简介机器人可以使用视觉模仿学习(VIL)从视频演示中学习日常任务。然而,由于视频数据的高维特性,将视觉观察转化为可行的机器人策略具有挑战性。当视频演示中涉及人类执行任务时,由于人类和机器人之间的形态差异,这一挑战进一步加剧。为了解决这些问题,我们介绍了一种名为“具有路标的视觉模仿学习”(VIEW)的算法,该算法显著提高了人对机器人VIL的样本效率。VIEW采用多管齐下的方法实现了这种效率:提取一个捕捉演示者意图的简化先前轨迹,使用与代理无关的奖励函数对机器人的动作进行反馈,并利用一种探索算法,在提取的轨迹中高效地对路标进行采样。VIEW还将人类轨迹分为抓取和任务阶段,以进一步加速学习效率。通过全面的模拟和实际实验,VIEW表现出比当前最先进的VIL方法更好的性能。VIEW使机器人能够从任意长的视频演示中学习涉及多个对象的各种操作任务。此外,它可以从单个视频演示中学习标准操作任务,例如推动或移动对象,学习时间不到30分钟,实际测试不到20次。代码和视频在此处:https://collab.me.vt.edu/view/
- 图表
- 解决问题该论文旨在解决机器人通过视频演示进行视觉模仿学习时的样本效率问题,特别是在人类表现任务的视频演示中,由于形态差异,机器人很难将视觉观察转化为可操作的机器人策略。
- 关键思路论文提出了一种名为VIEW的算法,通过提取捕捉演示者意图的简化先前轨迹,使用代理不可知的奖励函数反馈机器人的动作,以及利用围绕提取轨迹中的路径点高效采样的探索算法,显著提高了人到机器人VIL的样本效率。
- 其它亮点论文通过全面的模拟和真实世界实验,证明了VIEW相对于当前最先进的VIL方法具有更好的性能。VIEW使机器人能够从任意长的视频演示中学习涉及多个对象的各种操纵任务。此外,它可以在少于20个真实世界的试验中从单个视频演示中学习标准操纵任务,如推动或移动物体,学习时间不到30分钟。论文提供了代码和视频。
- 近年来,在机器人视觉模仿学习领域中,还有许多相关研究,例如“End-to-end Robotic Reinforcement Learning without Reward Engineering”和“DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills”。
沙发等你来抢
去评论
评论
沙发等你来抢