Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation

2024年08月21日
  • 简介
    现代机器学习系统依赖于大规模数据集以实现广泛的泛化,这常常在机器人学习中带来挑战,因为每个机器人平台和任务可能只有很小的数据集。通过在许多不同种类的机器人上训练单个策略,机器人学习方法可以利用更广泛和更多样化的数据集,从而可以实现更好的泛化和鲁棒性。然而,对多机器人数据进行单个策略的训练具有挑战性,因为机器人的传感器、执行器和控制频率可能有很大的差异。我们提出了CrossFormer,这是一种可扩展和灵活的基于Transformer的策略,可以消耗任何体现的数据。我们在迄今为止最大、最多样化的数据集上训练CrossFormer,该数据集包括20种不同机器人体现的900K条轨迹。我们证明了相同的网络权重可以控制非常不同的机器人,包括单臂和双臂操作系统、轮式机器人、四旋翼和四足动物。与之前的工作不同,我们的模型不需要手动对齐观察或行动空间。在现实世界中的大量实验表明,我们的方法可以匹配为每种体现量身定制的专业策略的性能,同时在跨体现学习方面也明显优于之前的最新技术水平。
  • 图表
  • 解决问题
    解决问题:如何在机器人学习中利用多样化的数据集,提高机器人的泛化性能和鲁棒性?
  • 关键思路
    关键思路:提出了一种基于Transformer的策略网络CrossFormer,能够处理不同机器人的数据,并且不需要手动对齐观测和动作空间。通过在20种不同机器人上训练,证明了CrossFormer的泛化能力和可扩展性。
  • 其它亮点
    亮点:使用了目前最大和最多样化的机器人数据集,共计900K条轨迹数据;CrossFormer的网络权重可以控制不同类型的机器人,包括单臂和双臂操作系统、轮式机器人、四轴飞行器和四足动物;在实际应用中,CrossFormer的表现与专门针对每种机器人的策略相当,同时在跨机器人学习方面显著优于现有技术。
  • 相关研究
    相关研究:机器人领域的跨机器人学习一直是一个热门话题。近期的相关研究包括:《Learning to Learn How to Learn: Self-Adaptive Hierarchical Meta-Reinforcement Learning》、《Learning to Simulate》、《Multi-Task Reinforcement Learning with Soft Modularization》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论