MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation

简介

多模态大语言模型（MLLMs）在理解和处理复杂的语言与视觉数据方面表现出色，使得通用机器人系统能够解读指令并执行具身任务。然而，其在现实世界中的部署受到巨大的计算和存储需求的限制。近期对LLM层中同质化模式的研究启发了稀疏化技术的发展，例如早期退出（early exit）和标记修剪（token pruning），以应对这些挑战。然而，这些方法往往忽略了最后几层的关键作用，而这些层编码了与下游机器人任务最相关的语义信息。基于神经科学中浅脑假说（Shallow Brain Hypothesis, SBH）的最新突破以及模型稀疏化中的专家混合理念，我们将每个LLM层视为一个“专家”，并提出了一种动态激活LLM层的混合层视觉-语言-动作模型（MoLe-VLA，简称MoLe）架构。我们为MoLe引入了一种空间-时间感知路由器（Spatial-Temporal Aware Router, STAR），根据机器人的当前状态选择性地激活部分层，从而模仿大脑中专门用于认知和因果推理的不同信号通路。此外，为了弥补MoLe中因稀疏化而损失的LLM认知能力，我们设计了一个认知自知识蒸馏框架（Cognition Self-Knowledge Distillation, CogKD）。CogKD通过利用认知特征，增强了对任务需求的理解，并改进了任务相关动作序列的生成能力。我们在RLBench模拟环境和真实世界环境中进行的大量实验表明，MoLe-VLA在效率和性能上均优于传统模型。具体而言，MoLe-VLA在十项任务中的平均成功率提升了8%，同时相比标准LLM减少了高达5.6倍的计算成本。
图表
解决问题

论文试图解决多模态大语言模型（MLLMs）在机器人任务中因计算和存储需求过高而导致的实际部署困难问题。这是一个需要新方法优化的问题，特别是在保持性能的同时降低资源消耗方面。
关键思路

论文提出了一种名为MoLe-VLA的架构，通过将每个LLM层视为一个专家，并引入Spatial-Temporal Aware Router (STAR) 动态激活相关层，从而减少不必要的计算。此外，还提出了Cognition Self-Knowledge Distillation (CogKD) 框架以补偿可能丢失的认知能力。这种方法与传统的早期退出或令牌剪枝技术不同，更注重保留语义信息丰富的最终层功能。
其它亮点

论文在RLBench模拟环境和真实世界环境中进行了广泛的实验，证明了MoLe-VLA在提高效率的同时还能提升任务成功率。具体来说，它实现了8%的任务成功率改进，并减少了高达5.6倍的计算成本。此外，该研究结合了神经科学中的浅脑假设（SBH）和混合专家模型的概念，为未来的研究提供了新的视角。目前尚不清楚是否有开源代码，但其设计理念值得进一步探索，例如针对不同类型的机器人任务优化STAR和CogKD框架。
相关研究

近期的相关研究包括：1) “Sparse MoE: A Unified Framework for Structured and Unstructured Sparsity in Transformer Models”，探讨了Transformer模型中的稀疏化技术；2) “Neural Circuit Policies Enabling Adaptive Behavior Transfer”，研究了如何通过神经电路策略实现自适应行为迁移；3) “Efficient Vision-Language Navigation with Sparse Transformers”，专注于视觉-语言导航任务中的稀疏化Transformer模型应用。这些研究共同推动了高效多模态模型的设计与机器人任务的应用。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论