- 简介视觉-语言模型(VLMs)在大规模多模态数据集上预训练后,能够编码丰富的视觉和语言知识,这使它们成为机器人技术的强大基础。相比于从零开始训练机器人的策略,近期的方法将VLMs扩展为视觉-语言-动作(VLA)模型,从而实现由自然语言驱动的感知与控制。然而,现有的VLA模型通常规模庞大——往往包含数十亿参数——这导致了高昂的训练成本以及有限的实际部署能力。此外,这些模型依赖于学术界和工业界的数据库,忽略了来自低成本机器人平台的社区收集数据日益增长的可用性。在这项工作中,我们提出了SmolVLA,这是一种小型、高效且由社区驱动的VLA模型,它显著降低了训练和推理成本,同时保持了具有竞争力的性能。SmolVLA被设计为可以在单个GPU上进行训练,并能部署在消费级GPU甚至CPU上。为了进一步提高响应速度,我们引入了一种异步推理框架,将感知和动作预测与动作执行解耦,通过分块的动作生成实现更高的控制频率。尽管其体积小巧,SmolVLA的性能可与规模大十倍的VLA模型相媲美。我们在一系列模拟和真实世界的机器人基准测试中评估了SmolVLA,并开源了所有代码、预训练模型及训练数据。
- 图表
- 解决问题该论文试图解决现有视觉-语言-动作(VLA)模型在机器人领域中规模过大、训练成本高以及难以部署的问题。此外,它还关注如何利用社区收集的数据来增强模型的泛化能力,而不仅仅依赖学术或工业数据集。这是一个重要的问题,但并非完全新颖,因为已有研究尝试优化VLA模型的效率和可扩展性。
- 关键思路SmolVLA通过设计一个小型、高效的VLA模型,显著降低了训练和推理成本,同时保持了与大型模型相当的性能。关键思路包括:1) 利用社区驱动的数据进行训练,充分利用低成本机器人平台生成的数据;2) 引入异步推理堆栈,将感知、动作预测与执行解耦,从而提高控制频率和响应速度;3) 模型结构紧凑,能够在单个GPU上训练并在消费级硬件上部署。
- 其它亮点论文的主要亮点包括:1) SmolVLA相比现有的VLA模型缩小了10倍以上,但仍能在模拟和真实世界任务中表现出色;2) 提出了异步推理框架,支持分块动作生成,进一步提升实时性能;3) 在多个基准测试中验证了模型的有效性,涵盖模拟环境和实际机器人场景;4) 开源了所有代码、预训练模型及训练数据,为社区提供了宝贵的资源;5) 实验设计全面,涉及不同任务类型和硬件配置,展示了模型的广泛适用性。
- 近期相关研究包括:1) 'Flamingo: a Visual Language Model for Multimodal Tasks' - 提出了一种多模态模型,能够处理复杂的视觉和语言任务;2) 'ALFRED: Learning Compositional Representations for High-Level Robot Instructions' - 研究如何从自然语言指令生成机器人动作序列;3) 'Robotic Vision-Language Navigation with Large-Scale Pretrained Models' - 探讨了大规模预训练模型在机器人导航中的应用;4) 'MiniLM: Deep Compression of BERT for Natural Language Understanding' - 针对语言模型压缩的技术,为SmolVLA的设计提供了灵感。
沙发等你来抢
去评论
评论
沙发等你来抢