Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos

2025年10月24日
  • 简介
    本文提出了一种利用大量未经脚本设计的真实人类手部活动视频来预训练机器人操作视觉-语言-动作(VLA)模型的新方法。我们将人类手部视为灵巧的机器人末端执行器,证明了无需任何标注的“野外”第一人称人类视频可以被转换为与现有机器人视觉-语言-动作训练数据在任务粒度和标签方面完全对齐的数据格式。这一目标通过开发一种针对任意人类手部视频的全自动、整体性人类活动分析方法得以实现。该方法能够生成原子级的手部活动片段及其语言描述,每个片段均附带逐帧的3D手部运动和相机运动信息。我们处理了大量第一人称视角视频,构建了一个包含100万段episode和2600万帧的手部-VLA训练数据集。该训练数据涵盖了现实生活中广泛多样的物体与概念、灵巧操作任务以及环境变化,其覆盖范围远超现有的机器人数据。我们设计了一种适用于灵巧手的VLA模型架构,并在此数据集上对模型进行了预训练。实验表明,该模型在完全未见过的真实世界观测中展现出强大的零样本能力。此外,在少量真实机器人动作数据上进行微调后,模型在真实机器人任务中的成功率和对新物体的泛化能力均显著提升。我们还展示了模型任务性能随着预训练数据规模增加而表现出良好的可扩展性。我们认为,这项工作为可扩展的VLA预训练奠定了坚实基础,推动机器人向真正具备泛化能力的具身智能迈进。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决机器人操作中缺乏大规模、多样化、真实世界数据的问题,导致现有视觉-语言-动作(VLA)模型在泛化和零样本能力上受限。该问题在当前机器人学习领域尤为突出,因为大多数训练数据依赖于小规模、脚本化的实验室环境收集,难以覆盖真实世界的复杂性和多样性。这是一个重要且尚未充分解决的问题。
  • 关键思路
    提出一种完全自动化的端到端方法,将大量无标注、野外采集的以自我为中心的人类手部活动视频转化为结构化的视觉-语言-动作训练数据。通过将人类手部视为灵巧的机器人末端执行器,从原始视频中提取原子级任务片段、自然语言描述、逐帧3D手势运动和相机运动,构建与机器人VLA训练兼容的数据格式。这一思路创新地利用人类日常行为作为机器人预训练的代理数据源,实现了跨模态、跨实体的知识迁移。
  • 其它亮点
    开发了一套全自动的人类活动分析系统,处理了100万段视频片段、共2600万帧,构建了目前最大规模的手部VLA预训练数据集;设计并预训练了一个灵巧手VLA模型,在零样本条件下展现出强大的现实世界推理能力;少量真实机器人动作数据微调后显著提升任务成功率和对新物体的泛化能力;实验验证了模型性能随预训练数据规模的良好扩展性;工作为基于人类行为的大规模具身智能预训练提供了可扩展范式,代码与数据集有望开源推动社区发展。
  • 相关研究
    1. 'Embodied Intelligence via Learning and Evolution', Nature Machine Intelligence, 2022 2. 'CLIPort: What and Where Pathways for Robotic Manipulation', CoRL 2021 3. 'RT-2: Vision-Language-Action Models from Web-Scale Reinforcement Learning', arXiv 2023 4. 'Ego4D: Around the World in 3,000 Hours of Egocentric Video', CVPR 2022 5. 'Movement Primitives: A Framework for Modeling Lower-Level Sensorimotor Skills', Annual Review of Control, Robotics, and Autonomous Systems, 2023
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问