OmniSAT: Compact Action Token, Faster Auto Regression

向作者提问

NEW

简介

现有的视觉-语言-行动（VLA）模型大致可分为基于扩散的模型和自回归（AR）模型两类：扩散模型能够捕捉连续的动作分布，但依赖计算开销较大的迭代去噪过程；相比之下，自回归模型具有高效的优化能力以及灵活的序列构建特性，因而更适用于大规模预训练。为了进一步提升AR模型的效率，尤其是在动作块导致序列过长且维度较高的情况下，先前的研究采用了基于熵引导和词频统计的技术来缩短序列长度。然而，这类压缩方法往往面临“重建效果差”或“压缩效率低”的问题。受此启发，我们提出了Omni Swift Action Tokenizer（全能快速动作分词器），该方法可学习一种紧凑且可迁移的动作表征。具体而言，我们首先对数值范围和时间范围进行归一化，结合B样条编码获得统一的动作表示；随后，对位置、旋转和夹爪三个子空间分别进行多阶段残差量化，从而为各部分生成由粗到细粒度的压缩离散令牌。在大规模数据集Droid上完成预训练后，该离散化分词方法使训练序列长度缩短了6.8倍，并降低了目标熵值。为进一步挖掘OmniSAT的潜力，我们设计了一种跨具身形态的学习策略，依托统一的动作模式空间，联合利用机器人与人类的操作示范，从而实现从异构的第一人称视角视频中进行可扩展的辅助监督学习。在多种真实机器人和仿真环境的实验中，OmniSAT在保持优异重建质量的同时实现了更高的压缩率，显著加快了自回归模型的训练收敛速度并提升了整体性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有的视觉-语言-动作（VLA）模型在处理高维、长序列的动作表示时面临效率与重建质量之间的权衡。自回归（AR）模型虽适合大规模预训练，但当动作块导致序列过长时，计算和优化成本仍较高；而现有压缩方法（如熵引导或词频技术）往往导致重建性能下降或压缩效率不高。该论文试图解决如何在保持高质量动作重建的同时，实现高效、紧凑的动作序列建模问题。这是一个在机器人模仿学习与跨形态泛化中日益关键且尚未充分解决的问题。
关键思路

提出Omni Swift Action Tokenizer (OmniSAT)，通过标准化动作空间并结合B-Spline时间编码与多阶段残差量化技术，在位置、旋转和夹爪子空间上生成粗到细的离散动作token。这种结构化的离散化方式实现了高倍率压缩（6.8×）同时降低目标熵，提升了AR模型的训练效率和重建保真度。此外，引入跨具身学习策略，利用统一的动作模式空间融合机器人与人类的第一视角演示数据，增强模型泛化能力。相比以往黑箱式或单一尺度的压缩方法，OmniSAT提供了可解释、可迁移且高效的动作表示框架。
其它亮点

在大规模Droid数据集上完成预训练，验证了OmniSAT显著缩短训练序列长度并加快AR模型收敛速度；在多种真实机器人和仿真环境中测试，证明其在压缩率与重建质量上的优越平衡；支持从异构的第一视角视频中进行可扩展的辅助监督学习，拓展了数据来源；论文强调了动作tokenizer的设计对端到端VLA系统的重要性，为后续研究提供了新范式；代码与模型有望开源（基于Droid数据使用惯例），值得进一步探索其在多任务、多形态机器人中的应用。
相关研究

Recent Advances in Vision-Language-Action Models for Robotic Manipulation; Tokenization Matters: Learning Action Representations for Efficient Imitation Learning; Diffusion Policies in Robotics: Bridging Perception and Control through Denoising; ACTOR: Autoregressive Curriculum Learning for Vision-Based Robotic Manipulation; Ego4D: Around the World in 3,000 Hours of Egocentric Video

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问