Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models

2024年03月10日
  • 简介
    多模态大语言模型(MLLMs)在与视觉理解和推理相关的任务中展示了令人印象深刻的技能。然而,它们的广泛应用面临着高计算需求的障碍,无论是在训练还是推理阶段,都限制了它们在研究和用户社区中的使用范围。在本文中,我们研究了多模态小语言模型(MSLMs)的设计方面,并提出了一种高效的多模态助手Mipha,旨在在各个方面创建协同作用:视觉表示、语言模型和优化策略。我们展示了在不增加训练数据量的情况下,我们的Mipha-3B在多个基准测试中优于最先进的大型MLLMs,特别是LLaVA-1.5-13B。通过详细的讨论,我们提供了开发强大的MSLMs的见解和指导,这些模型可以与MLLMs的能力相媲美。我们的代码可在https://github.com/zhuyiche/Mipha上获得。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在设计一个高效的多模态语言模型,以解决多模态大语言模型在训练和推理阶段计算量大的问题,从而扩大其应用范围。
  • 关键思路
    论文提出了一种多模态小语言模型的设计方案,通过视觉表征、语言模型和优化策略的协同作用,实现了高效的多模态助手Mipha,并在多个基准测试中表现优于目前最先进的大型多模态语言模型。
  • 其它亮点
    论文的亮点包括:1. 提出了一种高效的多模态小语言模型的设计方案;2. Mipha-3B在多个基准测试中表现优于目前最先进的大型多模态语言模型;3. 通过详细的讨论,提供了开发强大的多模态小语言模型的见解和指南;4. 提供了开源代码。
  • 相关研究
    最近的相关研究包括:LLaVA-1.5-13B等多模态大语言模型。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问