- 简介学习演示是教授机器人新技能的一种强大方法,更多的演示数据通常可以提高策略学习的效果。然而,收集演示数据的高成本是一个重要的瓶颈。视频作为一种丰富的数据源,包含了行为、物理和语义知识,但由于缺乏动作标签,从中提取特定于控制的信息具有挑战性。在这项工作中,我们介绍了一种新的框架,任意点轨迹建模(ATM),通过预训练轨迹模型来利用视频演示,以预测视频帧中任意点的未来轨迹。一旦训练完成,这些轨迹提供了详细的控制指导,使得在最小的动作标记数据下学习到了强大的视觉运动策略。我们的方法在130个模拟任务中展示了有效性,重点关注语言条件下的操作任务。可在以下网址找到可视化和代码:\url{https://xingyu-lin.github.io/atm}。
- 图表
- 解决问题如何利用视频演示来提高机器人学习新技能的效率?如何从视频中提取控制方面的信息以指导机器人学习?
- 关键思路提出了一种新的框架 Any-point Trajectory Modeling (ATM),通过预训练轨迹模型来预测视频帧中任意点的未来轨迹,从而提供详细的控制指导,使得机器人学习过程中只需要很少的有标签数据。
- 其它亮点实验在130个模拟任务中进行,主要集中在语言条件下的操作任务。通过提取视频中的轨迹来提供控制指导,使得机器人学习新技能的效率得到了显著提高。作者提供了代码和可视化的工具,方便其他研究者进行复现和进一步研究。
- 最近的相关研究包括使用深度学习模型从视频中提取轨迹信息,以及使用强化学习方法进行机器人学习。其中一些论文包括“Unsupervised Learning of Visual Features by Contrasting Cluster Assignments”和“Playing Atari with Deep Reinforcement Learning”。


提问交流