From Generated Human Videos to Physically Plausible Robot Trajectories

向作者提问

NEW

简介

视频生成模型在合成新情境下人类动作方面正迅速提升，有望作为情境化机器人控制的高层规划器。为实现这一潜力，一个关键的研究问题仍然悬而未决：人形机器人如何以零样本方式执行由生成视频中的人类动作？这一挑战源于生成的视频通常含有噪声，并表现出形态上的失真，相较于真实视频更难直接模仿。为应对这一问题，我们提出了一种两阶段流程：首先，将视频像素提升为一种四维人体表征，再将其重定向至人形机器人的形态结构；其次，我们提出了GenMimic——一种基于3D关键点、具备物理感知能力的强化学习策略，并通过对称性正则化以及关键点加权追踪奖励进行训练。因此，GenMimic能够从含噪声的生成视频中模仿人类动作。我们构建了GenMimicBench，这是一个利用两种视频生成模型在多种动作和场景下生成的合成人形动作数据集，用于评估零样本泛化能力和策略鲁棒性的基准测试平台。大量实验表明，该方法在仿真环境中优于强基线方法，并在无需微调的情况下，在Unitree G1人形机器人上实现了连贯且物理稳定的运动追踪。本研究为充分发挥视频生成模型作为机器人控制高层策略的潜力提供了可行路径。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决如何让仿人机器人在零样本情况下执行由视频生成模型合成的人类动作的问题。由于生成的视频通常包含噪声和形态失真，直接模仿非常困难，因此难以将当前快速发展的视频生成模型转化为实际的机器人控制策略。这是一个新兴且具有挑战性的问题，尤其在将视觉生成模型用于具身智能体控制方面尚属前沿探索。
关键思路

提出一个两阶段框架：首先将生成视频中的像素提升为4D人类姿态表示，并将其重定向到机器人形态；然后设计GenMimic——一种基于3D关键点、具备物理感知能力的强化学习策略，结合对称性正则化和关键点加权跟踪奖励，实现对噪声视频中人类动作的鲁棒模仿。该方法无需微调即可泛化到新动作和场景，是首次将生成视频直接用于零样本机器人控制的有效尝试。
其它亮点

构建了GenMimicBench，一个基于两种视频生成模型（如Stable Video Diffusion和Phenaki）合成的多样化人类动作数据集，用于评估零样本泛化与策略鲁棒性；实验在仿真环境中显著优于强基线方法，并成功迁移到真实的Unitree G1人形机器人上，实现了稳定、协调的运动跟踪；代码与数据集计划开源，推动后续研究；未来可深入探索更复杂的任务条件、跨模态指令融合以及闭环反馈机制。
相关研究

1. "Video-Prompted Control for Robotic Imitation Learning" (CoRL 2023) 2. "Physically Plausible Visual Imitation via Causal InfoFlow" (ICRA 2024) 3. "Diffusion Policies as Generalized Action Representations" (RSS 2023) 4. "Human Motion Diffusion with Latent Manifold Constraints" (CVPR 2024) 5. "Zero-Shot Imitation from Generated Videos using Embodied Vision Models" (NeurIPS 2023 Workshop)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问