- 简介自回归序列模型,例如基于Transformer的视觉-语言动作(VLA)策略,在捕捉复杂且可泛化的机器人行为方面可以非常有效。然而,这些模型要求我们对连续的动作信号进行分词化处理,这决定了模型预测的离散符号如何映射到连续的机器人动作。我们发现,当前基于简单按维度、按时步分箱方案的机器人动作分词方法,在从高频机器人数据中学习灵巧技能时通常表现不佳。为了解决这一挑战,我们提出了一种基于离散余弦变换的新型压缩式分词方案。我们的分词方法——频域动作序列分词(FAST),使我们能够训练自回归VLA以处理标准离散化方法完全失败的高度灵巧和高频任务。基于FAST,我们发布了FAST+,一个通用的机器人动作分词器,该分词器是在100万条真实机器人动作轨迹上训练的。它可以作为黑盒分词器用于各种机器人动作序列,适用于不同的动作空间和控制频率。最后,我们展示了当与pi0 VLA结合时,我们的方法可以扩展到在1万小时的机器人数据上进行训练,并匹配扩散VLA的性能,同时将训练时间缩短至多5倍。
- 图表
- 解决问题该论文试图解决在使用自回归序列模型(如基于Transformer的视觉-语言行动策略)时,如何有效地将连续动作信号进行离散化以适应机器人学习的问题。特别是针对需要高频率数据和精细技能的任务,传统的简单分箱方案表现不佳,这限制了模型在复杂任务中的应用。
- 关键思路关键思路是引入了一种基于离散余弦变换(DCT)的压缩式离散化方法,称为Frequency-space Action Sequence Tokenization (FAST)。相比传统的方法,FAST通过对动作序列在频域上的表示进行离散化,能够更高效地捕捉动作的时间依赖性和模式,从而显著提高了模型对高频率和复杂机器人任务的学习效果。
- 其它亮点亮点包括:1) 提出了FAST+,一个通用的机器人动作离散化工具,训练于100万条真实的机器人动作轨迹,适用于多种不同的动作空间和控制频率;2) 结合pi0 VLA模型,能够在10,000小时的机器人数据上进行训练,并且性能与扩散型VLA相当,同时训练时间减少了最多5倍;3) 实验设计涵盖了广泛的机器人任务,验证了方法的有效性;4) 代码已开源,方便后续研究者复现和扩展。
- 最近的相关研究包括:1) 使用Transformer架构改进机器人行为建模的研究;2) 针对机器人动作序列的其他离散化方法;3) 大规模机器人数据集的应用;4) 强化学习与自监督学习结合的探索。一些相关论文标题有《Learning Dexterous Manipulation with Contact-Invariant Objectives》、《Diffusion Policies for Offline Reinforcement Learning》、《Tokenizing Continuous Actions for Robot Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢