- 简介多模态大语言模型(MLLMs)在理解和处理复杂的语言与视觉数据方面表现出色,使得通用机器人系统能够解读指令并执行具身任务。然而,其在现实世界中的部署受到巨大的计算和存储需求的限制。近期对LLM层中同质化模式的研究启发了稀疏化技术的发展,例如早期退出(early exit)和标记修剪(token pruning),以应对这些挑战。然而,这些方法往往忽略了最后几层的关键作用,而这些层编码了与下游机器人任务最相关的语义信息。基于神经科学中浅脑假说(Shallow Brain Hypothesis, SBH)的最新突破以及模型稀疏化中的专家混合理念,我们将每个LLM层视为一个“专家”,并提出了一种动态激活LLM层的混合层视觉-语言-动作模型(MoLe-VLA,简称MoLe)架构。我们为MoLe引入了一种空间-时间感知路由器(Spatial-Temporal Aware Router, STAR),根据机器人的当前状态选择性地激活部分层,从而模仿大脑中专门用于认知和因果推理的不同信号通路。此外,为了弥补MoLe中因稀疏化而损失的LLM认知能力,我们设计了一个认知自知识蒸馏框架(Cognition Self-Knowledge Distillation, CogKD)。CogKD通过利用认知特征,增强了对任务需求的理解,并改进了任务相关动作序列的生成能力。我们在RLBench模拟环境和真实世界环境中进行的大量实验表明,MoLe-VLA在效率和性能上均优于传统模型。具体而言,MoLe-VLA在十项任务中的平均成功率提升了8%,同时相比标准LLM减少了高达5.6倍的计算成本。
- 图表
- 解决问题论文试图解决多模态大语言模型(MLLMs)在机器人任务中因计算和存储需求过高而导致的实际部署困难问题。这是一个需要新方法优化的问题,特别是在保持性能的同时降低资源消耗方面。
- 关键思路论文提出了一种名为MoLe-VLA的架构,通过将每个LLM层视为一个专家,并引入Spatial-Temporal Aware Router (STAR) 动态激活相关层,从而减少不必要的计算。此外,还提出了Cognition Self-Knowledge Distillation (CogKD) 框架以补偿可能丢失的认知能力。这种方法与传统的早期退出或令牌剪枝技术不同,更注重保留语义信息丰富的最终层功能。
- 其它亮点论文在RLBench模拟环境和真实世界环境中进行了广泛的实验,证明了MoLe-VLA在提高效率的同时还能提升任务成功率。具体来说,它实现了8%的任务成功率改进,并减少了高达5.6倍的计算成本。此外,该研究结合了神经科学中的浅脑假设(SBH)和混合专家模型的概念,为未来的研究提供了新的视角。目前尚不清楚是否有开源代码,但其设计理念值得进一步探索,例如针对不同类型的机器人任务优化STAR和CogKD框架。
- 近期的相关研究包括:1) “Sparse MoE: A Unified Framework for Structured and Unstructured Sparsity in Transformer Models”,探讨了Transformer模型中的稀疏化技术;2) “Neural Circuit Policies Enabling Adaptive Behavior Transfer”,研究了如何通过神经电路策略实现自适应行为迁移;3) “Efficient Vision-Language Navigation with Sparse Transformers”,专注于视觉-语言导航任务中的稀疏化Transformer模型应用。这些研究共同推动了高效多模态模型的设计与机器人任务的应用。
沙发等你来抢
去评论
评论
沙发等你来抢