VisualMimic: Visual Humanoid Loco-Manipulation via Motion Tracking and Generation

向作者提问

NEW

简介

在非结构化环境中，人形机器人需要实现自我中心感知与全身控制的紧密集成。然而，现有方法要么依赖外部动作捕捉系统，要么难以在不同任务之间实现泛化。本文提出了VisualMimic，一种面向视觉的仿真到现实迁移框架，将自我中心视觉与分层式全身控制统一应用于人形机器人。VisualMimic结合了一个与任务无关的底层关键点追踪器——该追踪器通过师生学习架构从人类动作数据中训练得到——以及一个任务特定的高层策略，后者根据视觉和本体感知输入生成关键点控制指令。为了确保训练过程稳定，我们在底层策略中引入噪声，并利用人类动作统计信息对高层动作进行裁剪。VisualMimic实现了视觉运动策略从仿真环境到真实人形机器人的零样本迁移，成功完成多种移动操作任务，例如箱子搬运、推动物体、足球带球与踢球等。此外，我们的策略不仅适用于受控的实验室环境，还能稳健地推广至户外场景。相关视频展示请访问：https://visualmimic.github.io。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决人形机器人在非结构化环境中进行自主感知与全身控制协同的难题，特别是现有方法依赖外部动捕系统或难以跨任务泛化的问题。该问题在当前具身智能和机器人迁移学习中具有重要性和现实挑战性，并非全新问题但尚未有效解决。
关键思路

提出VisualMimic框架，通过将任务无关的低层关键点追踪策略（从人类动作数据中通过师生模式训练）与任务特定的高层视觉-本体感觉策略相结合，实现基于第一视角视觉的分层全身控制。其创新在于解耦控制层级，利用人类运动先验实现仿真到现实的零样本迁移，无需外部感知设备。
其它亮点

框架实现了多种操作-移动复合任务（如搬箱、推物、足球带球与射门）在真实人形机器人上的零样本仿真到现实迁移；在户外复杂环境也表现出良好鲁棒性；训练中引入噪声注入和基于人类动作统计的动作裁剪以提升稳定性；代码与视频已公开（https://visualmimic.github.io），具备可复现性；未来可探索更复杂的交互任务与多智能体协作。
相关研究

1. 'Learning Human-to-Robot Mapping of Whole-Body Motion via Pose Similarity' (2023) 2. 'Vision-Based Whole-Body Control for Humanoid Robots in Unstructured Environments' (2022) 3. 'Sim-to-Real Transfer in Robotics: A Survey on Vision-Guided Locomotion and Manipulation' (2023) 4. 'Hierarchical Reinforcement Learning for Multi-Task Bipedal Locomotion' (2021) 5. 'Egocentric Perception for Autonomous Robotic Manipulation: From Imitation to Adaptation' (2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问