MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation

简介

多模态大语言模型（MLLMs）在理解和处理复杂的语言与视觉数据方面表现出色，使通用机器人系统能够解读指令并执行具身任务。然而，其实际部署受到巨大计算和存储需求的限制。近期关于LLM层中同质化模式的研究启发了稀疏化技术的发展，例如提前退出（early exit）和标记修剪（token pruning），以应对这些挑战。然而，这些方法往往忽略了最后几层的重要性，而这些层编码了与下游机器人任务最相关的语义信息。基于神经科学中浅脑假设（Shallow Brain Hypothesis, SBH）的最新突破以及模型稀疏化中的专家混合理念，我们将每个LLM层视为一个“专家”，并提出了一种分层动态激活的混合层视觉-语言-动作模型（Mixture-of-Layers Vision-Language-Action model, 简称MoLe）。我们为MoLe引入了一个空间-时间感知路由模块（Spatial-Temporal Aware Router, STAR），根据机器人当前状态选择性地激活部分层，模拟大脑中专用于认知和因果推理的不同信号通路。此外，为了弥补MoLe中因稀疏化而损失的语言模型认知能力，我们设计了一个认知自知识蒸馏框架（Cognition Self-Knowledge Distillation, CogKD）。CogKD通过利用认知特征，增强了对任务需求的理解，并改进了与任务相关动作序列的生成能力。我们在RLBench仿真环境和真实世界场景中进行了大量实验，结果表明MoLe-VLA在效率和性能上均优于传统模型。具体而言，MoLe-VLA在十项任务的平均成功率上提升了8%，同时相比标准LLM降低了高达5.6倍的计算成本。
图表
解决问题

该论文试图解决多模态大语言模型（MLLMs）在机器人任务中部署时面临的高计算和存储需求问题。这是一个现有问题，因为尽管MLLMs在理解和执行复杂任务方面表现出色，但其资源消耗限制了实际应用。
关键思路

论文提出了一种名为MoLe-VLA的新型架构，通过将每个LLM层视为一个专家，并引入Spatial-Temporal Aware Router (STAR)来动态选择性激活部分层，从而减少计算成本。此外，还提出了Cognition Self-Knowledge Distillation (CogKD)框架以弥补因稀疏化而损失的认知能力。这种方法不同于传统的早期退出或令牌修剪技术，因为它特别关注保留语义信息丰富的最终层。
其它亮点

论文通过RLBench模拟环境和真实世界实验验证了MoLe-VLA的有效性，结果显示其在十项任务上的平均成功率提高了8%，同时计算成本减少了5.6倍。研究使用了RLBench数据集，并可能提供了开源代码（需进一步确认）。未来可以探索更复杂的机器人场景以及如何进一步优化STAR和CogKD机制。
相关研究

最近的相关研究包括：1) 关于Shallow Brain Hypothesis (SBH) 的神经科学研究；2) 混合专家模型（MoE）在模型稀疏化中的应用；3) 其他针对LLMs效率改进的工作如Pruning、Quantization等。例如，《Adaptive Token Pruning for Efficient Language Modeling》和《Mixture of Experts Can Scale to Massive Datasets》等论文探讨了类似的稀疏化策略。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论