- 简介基于Mamba的架构已经显示出是深度学习模型的一个有前途的新方向,这是由于它们具有竞争性的性能和次二次部署速度。然而,当前的Mamba多模态大语言模型(MLLM)在提取视觉特征方面不足,导致视觉和文本潜变量之间的交叉模态对齐不平衡,从而对多模态任务的性能产生负面影响。在这项工作中,我们提出了一种名为“EMMA”的方法,它能够使MLLM提取细粒度的视觉信息。具体而言,我们提出了一个像素级对齐模块,通过自回归优化学习和处理空间图像级特征和文本标记,实现了图像级别的结构对齐。此外,为了防止在交叉模型对齐过程中视觉信息的退化,我们提出了一个多尺度特征融合(MFF)模块,将来自中间层的多尺度视觉特征组合在一起,实现了特征级别的分层对齐。我们在各种多模态基准测试中进行了大量实验。我们的模型显示出比其他基于Mamba的MLLM具有更低的延迟,并且在推理过程中比类似规模的基于Transformer的MLLM快近四倍。由于更好的交叉模态对齐,我们的模型表现出更低的幻觉程度和对视觉细节的增强敏感性,这在各种多模态基准测试中表现出卓越的性能。我们将提供代码。
- 图表
- 解决问题本论文旨在解决当前Mamba多模态大语言模型(MLLM)提取视觉特征不足的问题,导致视觉和文本潜变量之间的跨模态对齐不平衡,从而影响多模态任务的性能。
- 关键思路本论文提出了一种名为EMMA的解决方案,通过像素级对齐模块和多尺度特征融合模块,使Mamba MLLM能够提取细粒度的视觉信息,从而实现结构和层次对齐,避免跨模态对齐过程中视觉信息的退化。
- 其它亮点本论文的实验结果表明,EMMA模型在多个多模态基准测试中表现优异,与其他基于Mamba的MLLM相比具有更低的延迟,并且在推理过程中比类似规模的Transformer-based MLLMs快近四倍。由于更好的跨模态对齐,我们的模型表现出更低的幻觉程度和对视觉细节的增强敏感性,这在各种多模态基准测试中表现出卓越的性能。
- 在最近的相关研究中,一些论文探讨了基于Mamba的MLLM的性能提升,例如《MambaNet: Improving the Efficiency and Performance of Mamba-Based Neural Networks》。还有一些研究关注于视觉和文本之间的跨模态对齐问题,例如《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》。
沙发等你来抢
去评论
评论
沙发等你来抢