Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference

2024年03月21日
  • 简介
    近年来,多模态大语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,目前的MLLM由著名的Transformer网络组成,其二次计算复杂度较低效。为了提高这些基础模型的效率,我们提出了Cobra,一个线性计算复杂度的MLLM。具体而言,Cobra将高效的Mamba语言模型集成到视觉模态中。此外,我们探索和研究了各种模态融合方案,以创建一个有效的多模态Mamba。大量实验证明:(1)由于Cobra的线性顺序建模,Cobra在速度上比当前计算效率高的最先进方法,例如LLaVA-Phi、TinyLLaVA和MobileVLM v2,具有极具竞争力的性能。(2)有趣的是,封闭式具有挑战性的预测基准测试的结果表明,Cobra在克服视觉幻觉和空间关系判断方面表现良好。(3)值得注意的是,Cobra甚至在参数数量约为LLaVA的43%的情况下实现了可比较的性能。我们将公开Cobra的所有代码,并希望所提出的方法能够促进未来MLLM中复杂性问题的研究。我们的项目页面可在以下网址找到:https://sites.google.com/view/cobravlm。
  • 图表
  • 解决问题
    本论文旨在提出一种线性计算复杂度的多模态大语言模型Cobra,以提高基础模型的效率。论文探索和研究了各种模态融合方案,以创建一种有效的多模态Mamba。
  • 关键思路
    Cobra将高效的Mamba语言模型集成到视觉模态中,实现了线性顺序建模。相比当前的计算效率高的方法,Cobra表现出极具竞争力的性能。此外,Cobra在解决视觉错觉和空间关系判断方面表现出色。
  • 其它亮点
    论文的实验设计充分,使用了多个数据集进行测试,并与其他计算效率高的方法进行了比较。论文还开源了Cobra的所有代码,以供其他研究人员使用。Cobra的提出可以为未来解决MLLM中的复杂性问题提供帮助。
  • 相关研究
    与本论文相关的研究包括LLaVA-Phi、TinyLLaVA和MobileVLM v2等计算效率高的方法,以及其他基于Transformer网络的多模态大语言模型。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论