Humanoid Locomotion as Next Token Prediction

2024年02月29日
  • 简介
    我们将现实世界的人形控制视为下一个令牌预测问题,类似于语言中预测下一个单词。我们的模型是一个因果变压器,通过感觉运动轨迹的自回归预测进行训练。为了考虑数据的多模态性,我们以模态对齐的方式进行预测,并针对每个输入令牌从相同的模态预测下一个令牌。这种通用的公式使我们能够利用缺少模态的数据,例如没有动作的视频轨迹。我们在一组来自先前的神经网络策略、基于模型的控制器、动作捕捉数据和人类YouTube视频的模拟轨迹上训练我们的模型。我们展示了我们的模型使一个全尺寸的人形机器人能够在零样本情况下在旧金山行走。我们的模型即使只训练了27小时的步行数据,也可以转移到真实世界,并且可以推广到训练中未见过的命令,如向后走。这些发现表明,通过生成感觉运动轨迹的生成建模,可以为学习具有挑战性的现实世界控制任务开辟有前途的道路。
  • 图表
  • 解决问题
    论文试图通过生成模型的方式,解决实现真实世界中人形机器人运动控制的问题,包括如何在缺失模态的情况下进行预测,以及如何在少量数据的情况下实现零样本迁移。
  • 关键思路
    论文提出了一种基于自回归预测的因果Transformer模型,通过对感知运动轨迹进行预测,实现对真实世界中人形机器人的控制。该模型通过模态对齐的方式进行预测,可以处理缺失模态的数据,并且可以在少量数据的情况下实现零样本迁移。
  • 其它亮点
    论文使用了多种数据集进行模型训练,包括神经网络策略、基于模型的控制器、运动捕捉数据和YouTube视频。实验结果表明,该模型可以实现在真实环境中对人形机器人的控制,并且可以在零样本情况下进行迁移学习,例如可以让机器人向后行走。此外,论文还提供了开源代码。
  • 相关研究
    在这个领域中,最近的相关研究包括《End-to-End Robotic Reinforcement Learning without Reward Engineering》、《Model-Based Reinforcement Learning for Atari》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论