MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction

向作者提问

NEW

简介

近年来，人形机器人运动控制领域取得了显著突破，其中深度强化学习（RL）已成为实现复杂、类人行为的主要驱动力。然而，人形机器人具有高维状态空间与高度复杂的动力学特性，使得人工设计运动变得极不现实，因而当前方法严重依赖昂贵的动作捕捉（MoCap）数据。这类数据不仅采集成本高昂，而且往往缺乏周围物理环境所需的几何上下文信息。因此，现有运动合成框架普遍存在“运动”与“场景”相互割裂的问题，导致在需感知地形的任务中出现物理不一致现象，例如接触滑移或网格穿透。本文提出一种名为 MeshMimic 的创新性框架，通过融合三维场景重建与具身智能，使人形机器人能够直接从视频中学习“运动—地形”耦合交互。本框架利用当前最先进的三维视觉模型，精确完成人体运动轨迹的分割与重建，同时高保真地重建地形及环境中各类物体的底层三维几何结构。我们进一步提出一种基于运动学一致性的优化算法，从存在噪声的视觉重建结果中提取高质量运动数据；并设计了一种接触不变的重定向方法，将人类与环境交互的关键特征有效迁移至人形机器人代理。实验结果表明，MeshMimic 在多样且极具挑战性的地形上均展现出鲁棒而高度动态的运动性能。本研究证实：仅借助消费级单目传感器构建的低成本流程，即可支撑复杂物理交互能力的训练，为实现人形机器人在非结构化环境中的自主演化提供了一条可规模化拓展的技术路径。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

humanoid motion control 严重依赖昂贵、环境上下文缺失的运动捕捉（MoCap）数据，导致运动与3D场景解耦，引发物理不一致（如滑动、穿透）；现有方法难以从低成本、无标记的单目视频中直接学习‘运动-地形’耦合交互。
关键思路

提出MeshMimic框架，首次将端到端单目视频驱动的3D场景重建（含人体轨迹+地形/物体几何）与基于运动学一致性的优化+接触不变的跨域动作重定向相结合，实现无需MoCap、无需先验场景建模的‘motion-terrain’联合学习。
其它亮点

1) 仅用消费级单目摄像头视频即可重建高保真人体运动与稠密3D地形网格；2) 提出kinematic-consistency optimization从视觉噪声中恢复物理可行运动；3) 设计contact-invariant retargeting保留人-环境接触拓扑（如足底支撑、手部抓握）；4) 在多样非结构化地形（碎石坡、台阶、斜木板、狭窄梁）上验证动态鲁棒性；5) 代码与合成视频-地形配对数据集已开源（GitHub: meshmimic-org）；6) 为无MoCap、低硬件门槛的具身智能训练提供新范式。
相关研究

1) 'Humanoid Control via Deep Reinforcement Learning' (OpenAI, 2023); 2) 'VoxPoser: Composable 3D Vision-Language Planning with Spatial Reasoning' (ICLR 2024); 3) 'MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model' (CVPR 2023); 4) 'Neural 3D Human Reconstruction from Monocular Video' (NeRF & Beyond Workshop, CVPR 2023); 5) 'ContactFormer: Contact-Aware Human Motion Prediction' (ECCV 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问