- 简介本文提出了一种混合多模态专家(MoME)的方法,以减轻任务干扰并获得通用的多模态大语言模型(MLLM)。在各种视觉语言任务中,通用的MLLM通常表现不如专业的MLLM,这可以归因于任务干扰。我们的MoME由两个关键组件组成,即混合视觉专家(MoVE)和混合语言专家(MoLE)。MoVE可以自适应地调节来自各种视觉编码器转换的特征,并具有转换架构的强兼容性。MoLE将稀疏门控专家融入LLMs中,以在基本不改变推理成本的情况下实现无痛改进。针对任务干扰,我们的MoME专门针对视觉和语言模态以适应任务差异。大量实验证明,MoME显着提高了通用MLLM在各种视觉语言任务中的性能。源代码已发布在https://github.com/JiuTian-VL/MoME上。
- 图表
- 解决问题本文旨在解决多模态大语言模型(MLLMs)在各种视觉-语言任务中表现不如专业模型的问题,这可能是由于任务干扰造成的。
- 关键思路本文提出了一种混合多模态专家(MoME)方法,通过混合视觉专家(MoVE)和语言专家(MoLE)来缓解任务干扰,实现通用的MLLM。MoVE可以自适应地调节来自各种视觉编码器转换的特征,并具有强大的转换架构兼容性。MoLE将稀疏门控专家集成到LLMs中,以实现基本不变的推理成本的无痛改进。
- 其它亮点实验表明,MoME显着提高了通用MLLM在各种视觉-语言任务中的性能。作者还公开了源代码(https://github.com/JiuTian-VL/MoME)。
- 近期相关研究包括:1)《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》;2)《VisualBERT: A Simple and Performant Baseline for Vision and Language》;3)《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》等。
沙发等你来抢
去评论
评论
沙发等你来抢