- 简介多模态大语言模型(MLLMs)在理解和处理复杂的语言与视觉数据方面表现出色,使通用机器人系统能够解读指令并执行具身任务。然而,其实际部署受到巨大计算和存储需求的限制。近期关于LLM层中同质化模式的研究启发了稀疏化技术的发展,例如提前退出(early exit)和标记修剪(token pruning),以应对这些挑战。然而,这些方法往往忽略了最后几层的重要性,而这些层编码了与下游机器人任务最相关的语义信息。基于神经科学中浅脑假设(Shallow Brain Hypothesis, SBH)的最新突破以及模型稀疏化中的专家混合理念,我们将每个LLM层视为一个“专家”,并提出了一种分层动态激活的混合层视觉-语言-动作模型(Mixture-of-Layers Vision-Language-Action model, 简称MoLe)。我们为MoLe引入了一个空间-时间感知路由模块(Spatial-Temporal Aware Router, STAR),根据机器人当前状态选择性地激活部分层,模拟大脑中专用于认知和因果推理的不同信号通路。此外,为了弥补MoLe中因稀疏化而损失的语言模型认知能力,我们设计了一个认知自知识蒸馏框架(Cognition Self-Knowledge Distillation, CogKD)。CogKD通过利用认知特征,增强了对任务需求的理解,并改进了与任务相关动作序列的生成能力。我们在RLBench仿真环境和真实世界场景中进行了大量实验,结果表明MoLe-VLA在效率和性能上均优于传统模型。具体而言,MoLe-VLA在十项任务的平均成功率上提升了8%,同时相比标准LLM降低了高达5.6倍的计算成本。
- 图表
- 解决问题该论文试图解决多模态大语言模型(MLLMs)在机器人任务中部署时面临的高计算和存储需求问题。这是一个现有问题,因为尽管MLLMs在理解和执行复杂任务方面表现出色,但其资源消耗限制了实际应用。
- 关键思路论文提出了一种名为MoLe-VLA的新型架构,通过将每个LLM层视为一个专家,并引入Spatial-Temporal Aware Router (STAR)来动态选择性激活部分层,从而减少计算成本。此外,还提出了Cognition Self-Knowledge Distillation (CogKD)框架以弥补因稀疏化而损失的认知能力。这种方法不同于传统的早期退出或令牌修剪技术,因为它特别关注保留语义信息丰富的最终层。
- 其它亮点论文通过RLBench模拟环境和真实世界实验验证了MoLe-VLA的有效性,结果显示其在十项任务上的平均成功率提高了8%,同时计算成本减少了5.6倍。研究使用了RLBench数据集,并可能提供了开源代码(需进一步确认)。未来可以探索更复杂的机器人场景以及如何进一步优化STAR和CogKD机制。
- 最近的相关研究包括:1) 关于Shallow Brain Hypothesis (SBH) 的神经科学研究;2) 混合专家模型(MoE)在模型稀疏化中的应用;3) 其他针对LLMs效率改进的工作如Pruning、Quantization等。例如,《Adaptive Token Pruning for Efficient Language Modeling》和《Mixture of Experts Can Scale to Massive Datasets》等论文探讨了类似的稀疏化策略。
沙发等你来抢
去评论
评论
沙发等你来抢