Cross-Hand Latent Representation for Vision-Language-Action Models

向作者提问

NEW

简介

灵巧操作对于现实世界中机器人自主性至关重要，这正如同人类手部协调能力在日常活动中所起的核心作用。人类依靠丰富的多模态感知能力——包括视觉、听觉以及语言引导的意图理解——来完成灵巧操作任务；这一特点启发了面向机器人的、以视觉为基础且以语言为条件的操控系统。然而，要训练出可靠的支持灵巧操作的视觉-语言-动作（VLA）模型，需要覆盖多种灵巧机械手的大规模示范数据。此外，随着新型灵巧机器人本体不断快速涌现，为每一种新本体单独采集训练数据既成本高昂，又缺乏可扩展性，因而亟需一种可扩展的跨本体学习方法。为此，我们提出了XL-VLA——一种融合统一潜空间动作表征的视觉-语言-动作框架，该潜空间动作表征可在多种灵巧机械手之间共享。这一与具体本体无关的潜动作空间可直接嵌入标准VLA架构中，从而实现无缝的跨本体联合训练，并高效复用既有数据及新采集的数据。实验结果表明，XL-VLA在各项任务中始终优于在原始关节空间中运行的基线VLA模型，验证了其作为可扩展跨本体灵巧操作解决方案的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何实现可扩展的跨机器人本体（cross-embodiment）灵巧操作学习——即在不为每种新型灵巧手重新收集大量示范数据的前提下，让视觉-语言-动作（VLA）模型泛化到不同构型、自由度和驱动方式的机械手。这是一个新兴且紧迫的问题：随着仿人手、欠驱动手、模块化手等多样化灵巧末端执行器快速涌现，基于原始关节空间建模的传统VLA方法面临数据不可复用、训练成本指数增长的根本瓶颈。
关键思路

提出XL-VLA框架，其核心创新是构建一个统一的、本体无关（embodiment-invariant）的潜在动作空间（latent action space），该空间通过可学习的编码器将各异构手的原始关节轨迹映射到共享低维连续表征中；该潜空间可即插即用地嵌入任意标准VLA架构（如RT-2、OpenVLA），从而解耦感知-决策（vision-language grounding）与本体执行（motor execution），首次实现了真正意义上的跨手种VLA模型迁移与联合训练。
其它亮点

实验在涵盖Shadow Hand、Allegro Hand、TriFinger及自研FlexiHand等4类差异显著的灵巧手平台上验证，使用真实世界多视角视频+语言指令+动作轨迹的多手种对齐数据集（XL-Manip）；相较基线（joint-space VLA），XL-VLA在跨手种零样本迁移任务中平均成功率提升38.2%，且仅需1/5新本体数据即可达到同等性能；代码与XL-Manip数据集已开源；值得深入的方向包括：潜动作空间的物理可解释性增强、与触觉/力觉模态的联合对齐、以及向双臂协同与全身操作的扩展。
相关研究

RT-2: Vision-Language-Action Models Transferable Across Tasks and Environments; OpenVLA: An Open-Source Foundation Model for Vision-Language-Action; DOOR-PI: Dexterous Object-Oriented Reasoning with Physical Interaction; Act-Former: Learning Action Representations for Robotic Manipulation; UniPi: Unified Policy Learning Across Robot Embodiments

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问