Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference

2024年03月21日
  • 简介
    近年来,多模态大语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络组成,其计算复杂度为二次,效率较低。为了提高这种基本模型的效率,我们提出了Cobra,这是一种具有线性计算复杂度的MLLM。具体而言,Cobra将高效的Mamba语言模型集成到视觉模态中。此外,我们还探索和研究了各种模态融合方案,以创建一个有效的多模态Mamba。广泛的实验表明,(1)Cobra在速度上比当前计算效率高的最先进方法,例如LLaVA-Phi、TinyLLaVA和MobileVLM v2,取得了极具竞争力的表现,并且由于Cobra的线性顺序建模,速度更快。(2)有趣的是,封闭集具有挑战性的预测基准结果表明,Cobra在克服视觉错觉和空间关系判断方面表现出色。(3)值得注意的是,Cobra甚至在参数数量约为LLaVA的43%的情况下实现了可比较的性能。我们将公开Cobra的所有代码,并希望所提出的方法能促进未来MLLM复杂性问题的研究。我们的项目页面可在此处找到:https://sites.google.com/view/cobravlm。
  • 图表
  • 解决问题
    提出一种线性计算复杂度的多模态大语言模型,以解决当前基于Transformer网络的模型计算复杂度较高的问题。
  • 关键思路
    将高效的Mamba语言模型集成到视觉模态中,并探索研究各种模态融合方案,创建有效的多模态Mamba。
  • 其它亮点
    1. Cobra的性能与当前计算效率高的最先进方法(如LLaVA-Phi、TinyLLaVA和MobileVLM v2)相当,由于Cobra的线性顺序建模,速度更快。2. 在具有挑战性的封闭预测基准测试中,Cobra表现出在克服视觉错觉和空间关系判断方面的良好性能。3. Cobra甚至在参数数量约为LLaVA的43%的情况下实现了可比较的性能。开源代码已经发布在项目页面上。
  • 相关研究
    最近的相关研究包括:LLaVA、TinyLLaVA、MobileVLM v2等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论