Gallant: Voxel Grid-based Humanoid Locomotion and Local-navigation across 3D Constrained Terrains

2025年11月18日
  • 简介
    稳健的人形机器人行走需要对周围三维环境进行准确且全局一致的感知。然而,现有的感知模块主要基于深度图像或高程图,只能提供局部且经过平面化处理的环境视图,难以完整捕捉环境的三维结构。本文提出了Gallant,一种基于体素网格的人形机器人在三维受限地形中的运动控制与局部导航框架。该方法利用体素化的激光雷达数据作为轻量级且结构化的感知表征,并采用按高度分组的二维卷积神经网络(z-grouped 2D CNN)将该表征直接映射到控制策略,从而实现完全端到端的优化。为支持可扩展的、基于激光雷达的训练并确保从仿真到现实的一致性,本文还开发了一种高保真的激光雷达仿真系统,能够动态生成逼真的观测数据。实验结果表明,Gallant更广泛的感知覆盖范围使其能够使用单一策略应对以往方法无法处理的复杂场景,不再局限于地面障碍物,而是扩展至侧向杂乱物体、上方遮挡、多层结构以及狭窄通道等情形。此外,通过改进的端到端优化,Gallant首次在诸如爬楼梯和踏上高台等挑战性任务中实现了接近100%的成功率。
  • 作者讲解
  • 图表
  • 解决问题
    现有机器人感知模块主要依赖深度图像或高程图,只能提供局部且扁平化的环境视图,难以捕捉复杂3D环境的完整结构,限制了人形机器人在多层级、狭窄通道、悬空障碍等复杂地形中的鲁棒运动能力。该问题在真实三维受限环境中尤为突出,尚未被充分解决。
  • 关键思路
    提出Gallant框架,采用体素网格(voxel-grid)作为轻量且结构化的感知表示,结合LiDAR数据,并设计z分组的2D CNN将三维体素输入直接映射到控制策略,实现感知到动作的端到端优化,突破传统方法仅关注地面障碍物的局限。
  • 其它亮点
    开发了高保真的动态LiDAR仿真系统,支持可扩展的训练和可靠的仿真到现实迁移;实验验证单个策略即可应对侧向杂乱、头顶遮挡、多层结构和窄道通行等多种挑战;在上下楼梯和登上高台任务中首次实现接近100%的成功率;代码与仿真环境已开源,便于复现与后续研究。
  • 相关研究
    1. Vision-Based Navigation for Mobile Robots in Complex Indoor Environments 2. Learning to Navigate in 3D Environments Using Ego-Centric Observations 3. Elevation Mapping for Autonomous Legged Locomotion 4. End-to-End Deep Reinforcement Learning for Legged Robot Navigation 5. VIPLO: Visual-Inertial Perceptive Locomotion with Online Terrain Estimation
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问