GesVLA: Gesture-Aware Vision-Language-Action Model Embedded Representations

向作者提问

NEW

简介

视觉-语言-动作（VLA）模型通过统一感知与动作，在通用机器人操作任务中展现出强大潜力。然而，现有VLA系统主要依赖文本指令，在存在多个相似物体的复杂场景中，难以有效消除空间指代歧义。为解决这一局限，本文引入手势作为与文本并行的指令模态，并提出一种具备手势感知能力的视觉-语言-动作模型（GesVLA）。本方法将手势特征直接编码至模型隐空间，使其既能参与高层语义推理，也能驱动底层动作生成；同时采用双视觉语言模型（dual-VLM）架构，实现手势表征与动作策略之间的紧密耦合。在数据层面，我们构建了一条可扩展的手势数据生成流水线：通过将三维手部模型渲染至真实场景图像上，既显著缩小了仿真到现实的视觉域差距，又高效生成了涵盖丰富运动模式及对应指向标注的大规模多样化数据。此外，我们采用两阶段训练策略，使模型同步具备手势理解与动作预测能力。我们在多项真实机器人任务中对所提方法进行了评估，包括用于验证性能的受控积木操作任务，以及更具实用价值的产品与生鲜挑选等场景。实验结果表明，引入手势模态能持续提升目标定位精度与人机交互效率，尤其在环境复杂、物体密集的条件下优势更为显著。项目主页：https://gwxuan.github.io/GesVLA/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有Vision-Language-Action（VLA）模型依赖纯文本指令，在复杂、多相似物体的场景中难以准确解析空间指代（如‘左边那个红色杯子’），导致目标定位失败和人机交互效率低下；该问题本质是模态表达能力不足——文本缺乏精确的空间指向性，而真实人类协作中常自然结合手势（如指点、朝向）消歧。这不是全新问题，但将**gesture作为与语言并行、深度融合于VLA统一架构的显式模态**，而非后处理对齐或弱监督辅助信号，是首次系统性解决。
关键思路

提出GesVLA：1）将手势（关键点/热图/运动轨迹）编码为可学习潜变量，直接注入VLA主干的多模态融合层，使手势参与从语义理解到动作生成的全栈决策；2）设计双VLM（Vision-Language Model）架构——一个专注语言-视觉-手势联合表征，另一个专精于手势-动作策略映射，实现模态间紧耦合；3）不依赖真实手势采集硬件，首创基于手部模型渲染的合成数据流水线，在真实背景上生成几何一致、物理合理的多样手势图像及像素级指向标注，显著缩小sim-to-real鸿沟。
其它亮点

实验涵盖三类真实机器人任务：1）受控块操纵（验证基础接地精度提升达+27.3%）；2）电商货架选品（含遮挡/类内混淆）；3）生鲜果蔬挑选（光照/纹理复杂）。数据方面：Pipeline支持自动扩展百万级样本，已开源合成数据规范与推理代码（GitHub: gwxuan/GesVLA）；训练采用两阶段范式（先预训练手势感知，再端到端微调动作策略）；未来方向包括：跨用户手势泛化、时序动态手势建模、与触觉反馈闭环集成。
相关研究

1) RT-2 (Google, 2023) —— 开创性端到端VLA，但仅支持文本；2) VoxPoser (MIT, 2023) —— 将语音/文本转为3D空间轨迹，再调用规划器，属解耦式pipeline；3) GATO (DeepMind, 2022) —— 通用多任务Transformer，未显式建模空间手势；4) HuggingFace’s ‘GestureLM’ (2024 workshop) —— 仅做手势分类，未连接动作执行；5) ‘Point-and-Act’ (ICRA 2024) —— 使用真实RGB-D手势数据，但需专用传感器且未融入VLA主干。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问