- 简介我们的目标是开发出能够通过多样化的操作技能与未知物体进行零样本交互的机器人,并展示了被动的人类视频可以作为学习这种通用机器人的丰富数据来源。与典型的机器人学习方法不同,我们采用一种分解方法,可以利用大规模的人类视频学习人类如何完成所需任务(人类计划),然后将其转化为机器人的具体实现。具体而言,我们学习了一个人类计划预测器,它可以根据当前场景图像和目标图像预测未来的手和物体配置。我们将其与一个翻译模块相结合,该模块学习了一个计划条件的机器人操作策略,并允许以零样本方式遵循人类计划进行通用操作任务。重要的是,虽然计划预测器可以利用大规模的人类视频进行学习,但翻译模块仅需要少量领域内数据,可以推广到训练期间未见过的任务。我们展示了我们学习的系统可以执行超过16种操作技能,可以推广到40个物体,涵盖了100个桌面操作和各种野外操作的真实任务。
- 图表
- 解决问题解决问题:论文旨在开发一种可以通过多种操作技能与未见过的通用物体进行零-shot交互的机器人,并展示了如何利用人类视频作为学习这种通用机器人的丰富数据源。
- 关键思路关键思路:与典型的机器人学习方法不同,该论文采用分解方法,可以利用大规模的人类视频来学习人类如何完成所需的任务(人类计划),然后将其转化为机器人的实体。具体而言,学习一个人类计划预测器,给定一个当前场景图像和目标图像,预测未来的手和物体配置。将其与翻译模块相结合,学习一个计划条件的机器人操作策略,并允许以零-shot方式遵循人类的计划进行通用操作任务,无需部署时间训练。
- 其它亮点其他亮点:论文展示了我们学习的系统可以执行超过16种操作技能,可以推广到40种物体,包括100个桌面操作和各种野外操作。论文的实验设计使用了大量的数据集,并且提供了开源代码。值得进一步研究的工作包括如何更好地利用人类视频进行学习,以及如何将该方法扩展到更广泛的场景。
- 相关研究:最近的相关研究包括基于强化学习和深度学习的机器人操作技能学习方法,例如《End-to-End Learning of Semantic Grasping》和《Deep Reinforcement Learning for Vision-Based Robotic Grasping: A Simulated Comparative Evaluation》。
沙发等你来抢
去评论
评论
沙发等你来抢