MoVA: Adapting Mixture of Vision Experts to Multimodal Context

2024年04月19日
  • 简介
    作为多模态大语言模型(MLLMs)中的关键组件,视觉编码器的能力极大地影响着MLLM对于不同图像内容的理解。虽然一些大规模预训练的视觉编码器(如CLIP和DINOv2中的视觉编码器)带来了很好的性能,但我们发现仍然没有单一的视觉编码器能够主导各种图像内容的理解。例如,CLIP视觉编码器在一般图像理解方面表现出色,但在文档或图表内容方面表现不佳。为了缓解CLIP视觉编码器的偏见,我们首先深入研究了不同预训练视觉编码器的固有行为,然后提出了MoVA,一种强大而新颖的MLLM,通过粗到细的机制自适应地路由和融合特定任务的视觉专家。在粗粒度阶段,我们设计了一种上下文感知的专家路由策略,根据用户指令、输入图像和视觉专家的专业知识动态选择最合适的视觉专家。这受益于配备专家路由低秩自适应(LoRA)的大型语言模型(LLM)的强大模型功能理解能力。在细粒度阶段,我们精心设计了混合视觉专家适配器(MoV-Adapter),从各种专家中提取和融合特定任务的知识。这种粗到细的范式有效地利用了基于多模态上下文和模型专业知识的专家表示,进一步增强了泛化能力。我们进行了大量实验来评估所提出方法的有效性。MoVA不需要任何花哨的技巧,在广泛的具有挑战性的多模态基准测试中,都能取得显著的性能提升。代码和模型将在https://github.com/TempleX98/MoVA上提供。
  • 图表
  • 解决问题
    本论文旨在解决现有预训练视觉编码器在理解不同类型图像时表现不尽如人意的问题,提出了一种自适应路由和融合任务特定视觉专家的方法。
  • 关键思路
    论文提出了一种粗到细的范式,通过上下文感知的专家路由策略和混合视觉专家适配器,自适应地路由和融合任务特定的视觉专家,从而提高了模型的泛化能力。
  • 其它亮点
    论文设计了一种上下文感知的专家路由策略和混合视觉专家适配器,提出了一种粗到细的范式,有效地利用了基于多模态上下文和模型专业知识的专家表示,进一步提高了泛化能力。在多个挑战性的多模态基准测试中,MoVA相比当前的最先进方法取得了显著的性能提升。论文的代码和模型已经在GitHub上开源。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如CLIP和DINOv2等大规模预训练视觉编码器,以及其他一些使用视觉专家的方法,如ViLBERT和LXMERT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论