- 策略学习的任意点轨迹建模ATM- 

科研成果速览


基于演示进行学习是机器人习得新技能的有效方法,而更多的演示数据往往意味着更优的策略学习。视频常被视为是一种丰富的数据源,但由于缺乏动作标签,从视频中提取特定的控制信息极具挑战性。为解决这一瓶颈,高阳研究组提出了策略学习的任意点轨迹模型(Any-point Trajectory Modeling,ATM),通过预训练轨迹模型来预测视频帧内任意点的未来轨迹,从而利用视频为机器人提供演示。训练完成后,这些轨迹将提供详细的控制指导,实现以最少的动作标签数据学习鲁棒的视觉运动策略。该算法为小样本和跨具身(cross-embodied)机器人学习领域提供了新视角。该论文被国际机器人顶级会议RSS2024接收,并获得全数审稿人满分评价。




科研成果概要


在机器学习领域,从视频中提取特定的控制信息非常具有挑战性。现有利用视频学习策略的工作都是基于图像级别的视频生成,这不仅计算成本高,而且生成结果较差。

针对这一问题,高阳研究组提出任意点轨迹建模(ATM),通过预训练轨迹模型来预测视频帧内任意点的未来轨迹,实现通过视频为机器人提供演示。与图像生成相比,点能自然地捕捉到物体空间移动的归纳偏差,并将物体运动与色彩和纹理分离开来,实现从人类到机械臂的跨具身一致性匹配。通过这些学习到的轨迹作为指导,机器人可以利用大规模无动作标签的人类视频演示中蕴含的先验知识,实现小样本动作标签演示数据训练鲁棒的机器人操作策略。



如视频中的真实机械臂操作实验所示,ATM利用大量人类视频训练点轨迹预测模型(第一行),经过极少量样本微调后可以成功泛化到机械臂运动控制任务上(第二行),成功解决可变形物体、多步任务和工具使用等困难的机械臂操作场景。视频中所预测轨迹的起始点为蓝色,终止点为粉色。



研究组在仿真器和真实世界机器人实验中均对该算法进行了评估,在超过 130 项以自然语言为条件的机器人操作任务中,性能显著超过现有最优视频预训练基线80%。此外,该工作还展示了从人类视频向机械臂操作的真机跨具身迁移学习效果。


该论文题为Any-point Trajectory Modeling for Policy Learning。文章共同第一作者为清华大学交叉信息研究院2020级博士生汶川、加州大学伯克利分校博后林星宇和斯坦福大学硕士生John So,其他作者还包括香港中文大学Qi Dou助理教授和Kai Chen博士。指导老师为加州大学伯克利分校Pieter Abbeel教授(通讯作者)和清华大学交叉信息研究院高阳助理教授。



Robotics: Science and Systems (RSS)是机器人领域的国际顶级会议之一,自2005年起每年举办一次。该会议由机器人学会(IEEE Robotics and Automation Society)和机器人科学与系统学会(Robotics Society of America)联合主办,旨在促进机器人领域的科学研究和技术应用的发展。该会议公认入选难度极高。



论文链接:

https://arxiv.org/pdf/2401.00025

项目主页:

https://xingyu-lin.github.io/atm/



研究组简介&招募信息

高阳老师研究组招募新成员!

高阳老师是清华大学交叉信息研究院助理教授。他曾在美国加州大学伯克利分校攻读博士学位,师从Trevor Darrell教授。在获得博士学位后,他在加州伯克利大学与Pieter Abbeel等人合作完成了博士后研究。

高阳老师目前主持具身视觉与机器人实验室(Embodied Vision and Robotics,简称EVAR Lab),专注于利用人工智能技术赋能机器人,致力于打造通用的具身智能框架。研究领域包含具身智能、计算机视觉与强化学习。高老师近期的代表作包含ViLa + CoPa,利用大模型构建通用机器人架构。高老师的EfficientZero算法是首个超越人类数据效率的强化学习算法。

高阳助理教授研究组正在招收2025年秋季入学的优秀博士生和硕士生,如果你对加入研究组充满热情,请通过电子邮件与高阳助理教授联系(gy20073@gmail.com),并附上你的简历。我们期待你的加入!



编辑 | 姜月亮   

审核 | 吕厦敏   

内容中包含的图片若涉及版权问题,请及时与我们联系删除