Universal Humanoid Motion Representations for Physics-Based Control

向作者提问

NEW

简介

我们提出了一种通用的运动表示法，涵盖了物理基础人形控制中全面的运动技能范围。由于人形机器人的高维度和强化学习中固有的困难，先前的方法集中于从专门的运动数据集中学习狭窄运动风格（例如行走、游戏角色）的技能嵌入。这种有限的范围限制了它们在复杂任务中的适用性。我们通过显著增加我们的运动表示空间的覆盖范围来弥补这一差距。为了实现这一目标，我们首先学习了一个可以模仿大量无结构运动数据集中的人类运动的运动模仿器。然后，我们通过直接从模仿器中提取技能来创建我们的运动表示法。这是通过使用具有变分信息瓶颈的编码器-解码器结构来实现的。此外，我们联合学习了一个以本体感知（人形机器人自身的姿态和速度）为条件的先验，以提高模型的表达能力和下游任务的采样效率。通过从先验中采样，我们可以生成长、稳定和多样化的人类运动。使用这个潜在空间进行分层强化学习，我们展示了我们的策略使用类似人类的行为解决任务。我们通过解决生成任务（例如打击、地形穿越）和使用VR控制器进行动作跟踪来展示我们的运动表示法的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提出一种通用的运动表征，以涵盖基于物理的人形控制的全面运动技能范围。此前的方法由于人形机器人的高维度和强化学习的固有难度，主要集中于从专门的运动数据集中学习狭窄范围的运动风格（如运动、游戏角色），这种局限性限制了它们在复杂任务中的适用性。本文通过显著增加运动表征空间的覆盖范围来弥补这一差距。为了实现这一目标，首先学习了一种运动模仿器，它可以从大型、非结构化的运动数据集中模仿所有的人体运动。然后通过使用具有变分信息瓶颈的编码器-解码器结构，直接从模仿器中提取技能来创建我们的运动表征。此外，我们联合学习了一个基于自我感知（机器人自身的姿态和速度）的先验知识，以提高模型的表达能力和下游任务的采样效率。通过从先验中采样，我们可以生成长、稳定、多样化的人体动作。使用这个潜在空间进行分层强化学习，我们展示了我们的策略使用类似人类的行为解决任务。通过解决生成任务（如打击、地形遍历）和使用VR控制器进行运动跟踪，我们展示了我们的运动表征的有效性。
关键思路

本文提出了一种通用的运动表征，以涵盖基于物理的人形控制的全面运动技能范围。通过学习运动模仿器，直接从模仿器中提取技能来创建运动表征，并联合学习一个基于自我感知的先验知识，以提高模型的表达能力和下游任务的采样效率。通过从先验中采样，可以生成长、稳定、多样化的人体动作。使用这个潜在空间进行分层强化学习，可以展示出类似人类的行为解决任务。
其它亮点

本文的亮点包括：1.提出了一种通用的运动表征，涵盖了基于物理的人形控制的全面运动技能范围；2.通过学习运动模仿器和联合学习基于自我感知的先验知识，提高了模型的表达能力和下游任务的采样效率；3.通过从先验中采样，可以生成长、稳定、多样化的人体动作；4.通过使用这个潜在空间进行分层强化学习，可以展示出类似人类的行为解决任务。
相关研究

在这个领域中，最近的相关研究包括：1.《DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills》；2.《Learning Dexterous In-Hand Manipulation》；3.《Learning to Learn from Simulation》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问