WholeBodyVLA: Towards Unified Latent VLA for Whole-Body Loco-Manipulation Control

向作者提问

NEW

简介

人形机器人在执行复杂的移动操作（loco-manipulation）任务时，需要精确的移动能力和灵巧的操作能力。然而，现有的方法无论是模块化还是端到端的方式，在具备操作感知能力的移动方面均存在不足。这限制了机器人的工作空间，使其难以完成大范围的移动操作任务。我们认为其原因在于：（1）获取移动操作知识面临挑战，主要是由于人形机器人遥操作数据十分稀缺；（2）现有强化学习（RL）控制器在精度和稳定性方面的局限，导致难以准确且可靠地执行移动指令。为了获得更丰富的移动操作知识，我们提出了一种统一的潜在学习框架，使视觉-语言-动作（Vision-Language-Action, VLA）系统能够从低成本、无动作标注的第一视角视频中进行学习。此外，我们设计了一条高效的人类数据采集流程，以扩充数据集并进一步提升学习效果。为更精确地执行期望的移动指令，我们提出了一种面向移动操作的（loco-manipulation-oriented, LMO）强化学习策略，专门针对前进、转向和下蹲等核心移动操作动作，实现高精度与高稳定性。基于上述组件，我们推出了WholeBodyVLA——一个面向人形机器人移动操作的统一框架。据我们所知，WholeBodyVLA是目前少数能够实现大范围人形机器人移动操作的框架之一。该框架在AgiBot X2人形机器人上通过了全面实验验证，性能优于先前基线方法21.3%。同时，它在多种不同任务中展现出强大的泛化能力和高度的可扩展性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决人形机器人在大范围空间中进行灵巧操作与移动（loco-manipulation）时，现有方法缺乏操作感知的运动控制能力的问题。由于缺少高质量的人形遥操作数据以及当前强化学习控制器在运动执行上的精度和稳定性不足，机器人被限制在狭窄的工作空间内，难以完成复杂的大范围协同任务。这个问题在当前机器人学习领域日益重要但尚未被充分解决。
关键思路

提出WholeBodyVLA——一个统一的视觉-语言-动作（VLA）框架，首次将无动作标签的低成本第一人称视频用于习得操作感知的运动控制知识，并设计了一个专为操作导向运动优化的强化学习策略（LMO），实现精确稳定的前进、转身、下蹲等核心动作。其关键创新在于：1）通过潜变量学习桥接视觉-语言指令与全身动作，无需昂贵的动作标注；2）构建高效人类数据采集流程以扩展训练数据；3）引入专用于loco-manipulation的RL策略提升底层控制精度。
其它亮点

在AgiBot X2人形机器人上进行了全面实验，任务涵盖大范围物品搬运、动态环境交互等，性能超越先前基线21.3%；展示了出色的跨任务泛化能力和可扩展性。使用了自建的第一人称视角视频数据集，并结合人工数据采集管道增强数据多样性。代码与数据集计划开源，推动社区发展。值得深入的方向包括：将该框架迁移到更多样化的机器人平台，融合触觉反馈以增强操作精细度，以及探索在真实家庭或工业场景中的长期部署。
相关研究

1. PaLM-E: Robotic Manipulation as Embodied AI 2. RT-2: Vision-Language-Action Models for Real-World Robot Control 3. OpenVLA: An Open-Source Vision-Language-Action Model for Robotics 4. Diffusion Policies as Generalized Point Cloud Processors for Robot Learning 5. BEHAVIOR: A Dataset and Benchmark for Large-Scale Visually Grounded Task Completion in Embodied AI

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问