Imp: Highly Capable Large Multimodal Models for Mobile Devices

简介

通过利用大型语言模型（LLMs）的能力，最近的大型多模态模型（LMMs）在开放式多模态理解方面表现出了卓越的多功能性。然而，它们通常具有大量参数和计算密集型，因此阻碍了它们在资源受限的场景中的适用性。为此，已经提出了几种轻量级LMMs，以在受限规模（例如3B）下最大化能力。尽管这些方法取得了令人鼓舞的结果，但它们大多只关注设计空间中的一两个方面，影响模型能力的关键设计选择尚未得到彻底调查。在本文中，我们从模型架构、训练策略和训练数据等方面对轻量级LMMs进行了系统研究。基于我们的发现，我们获得了Imp系列，这是一组在2B-4B规模下高度有能力的LMMs。值得注意的是，我们的Imp-3B模型稳定地优于所有现有的类似大小的轻量级LMMs，甚至超过了13B规模的最先进的LMMs。通过低位量化和分辨率降低技术，我们的Imp模型可以部署在高通骁龙8Gen3移动芯片上，推理速度约为13个标记/秒。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在研究轻量级多模态模型的设计，以提高其在资源受限情况下的适用性和多模态理解能力。
关键思路

通过对模型架构、训练策略和训练数据等方面的系统研究，提出了一种高性能的轻量级多模态模型Imp，其在2B-4B规模下表现出色，甚至超过了13B规模的现有模型。
其它亮点

论文的实验设计合理，使用了多个数据集进行测试，并且开源了代码。Imp-3B模型的表现稳定，超越了同样大小的现有轻量级多模态模型，甚至超过了13B规模的最先进模型。此外，Imp模型还可以通过低比特量化和分辨率降低等技术，在高推理速度下部署到移动端。
相关研究

近期的相关研究包括基于大语言模型的多模态模型和轻量级多模态模型的设计。其中，本论文的Imp模型在轻量级多模态模型领域取得了较好的表现。

Imp: Highly Capable Large Multimodal Models for Mobile Devices

提问交流

提问交流