- 简介我们介绍了LLaVA-MoD,这是一个新的框架,旨在通过从大规模MLLM(l-MLLM)中提取知识来实现小规模多模态语言模型(s-MLLM)的高效训练。我们的方法解决了MLLM蒸馏中的两个基本挑战。首先,我们通过将稀疏专家混合(MoE)架构集成到语言模型中来优化s-MLLM的网络结构,平衡计算效率和模型表达能力。其次,我们提出了一种渐进式知识转移策略,以确保全面的知识迁移。这种策略从模仿蒸馏开始,我们通过最小化输出分布之间的Kullback-Leibler(KL)散度来使学生模型模仿教师网络的理解。接下来,我们通过直接优化偏好(DPO)引入了偏好蒸馏,其中关键在于将l-MLLM视为参考模型。在这个阶段,s-MLLM区分优劣示例的能力显著提高,超越了l-MLLM,尤其是在幻觉基准测试中,导致更好的学生。广泛的实验表明,LLaVA-MoD在各种多模态基准测试中优于现有模型,同时保持最少的激活参数和低计算成本。值得注意的是,LLaVA-MoD仅具有20亿个激活参数,在仅使用0.3%的训练数据和23%的可训练参数的情况下,平均超过Qwen-VL-Chat-7B 8.8%。这些结果强调了LLaVA-MoD有效地从其教师模型中蒸馏全面的知识,为更高效的MLLM的开发铺平了道路。代码将在以下网址上提供:https://github.com/shufangxun/LLaVA-MoD。
- 图表
- 解决问题本论文旨在解决小规模多模态语言模型训练的效率问题,提出了一种基于大规模模型蒸馏的框架LLaVA-MoD。主要挑战是如何在保持计算效率和模型表达能力的平衡的同时,优化小模型的网络结构和实现全面的知识迁移。
- 关键思路LLaVA-MoD框架通过在语言模型中集成稀疏的专家混合(MoE)架构,优化小模型的网络结构,并提出渐进式知识迁移策略,包括模仿蒸馏和直接优化偏好等方法,从而实现全面的知识迁移。
- 其它亮点论文的实验结果表明,LLaVA-MoD在各种多模态基准测试中表现优异,同时保持最小数量的激活参数和低计算成本。值得关注的是,LLaVA-MoD只使用了0.3%的训练数据和23%的可训练参数,仅有20亿个激活参数,就比Qwen-VL-Chat-7B平均高出8.8%。此外,该论文的代码将在GitHub上公开。
- 近期在这个领域的相关研究包括:Qwen等人提出的Qwen-VL-Chat-7B模型以及其他的模型蒸馏方法,如FitNets,AT,SP等。
沙发等你来抢
去评论
评论
沙发等你来抢