MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception

简介

近年来，多模态大型语言模型（MLLMs）在视觉问答和常识推理等任务中表现出了卓越的能力，而视觉感知模型在检测和分割等感知任务中也取得了重大进展。然而，MLLMs主要关注高级别的图像-文本解释，对于细粒度的视觉理解存在困难，而视觉感知模型通常由于其有限的模型容量而受到开放世界分布转移的影响。为了克服这些挑战，我们提出了相互增强的多模态大型语言模型（MR-MLLM），这是一个新颖的框架，可以协同增强视觉感知和多模态理解。首先，我们提出了共享查询融合机制，将来自视觉模型的详细视觉输入与语言模型的语言深度协调一致，从而协同增强多模态理解和视觉感知。其次，我们提出了增强感知的跨模态集成方法，将来自视觉感知输出的新颖模态，例如物体检测边界框，纳入到模型中以捕捉微妙的视觉元素，从而丰富对视觉和文本数据的理解。此外，我们提出了一种创新的嵌入感知的提示生成机制，将感知信息嵌入到语言模型的提示中，从而在上下文和感知上对响应进行对齐，实现更准确的多模态解释。广泛的实验证明了MR-MLLM在各种多模态理解和视觉感知任务中的卓越性能，特别是那些需要角落情况视觉感知和细粒度语言理解的任务。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决多模态大语言模型（MLLMs）在细粒度视觉理解方面的挑战，以及视觉感知模型在开放世界分布转移方面的问题。
关键思路

本文提出了一种新的框架MR-MLLM，通过共享查询融合机制、感知增强跨模态集成方法以及感知嵌入提示生成机制，实现了视觉感知和多模态理解的协同增强。
其它亮点

本文在各种多模态理解和视觉感知任务中取得了优异的表现，尤其是在需要细粒度视觉理解的任务中。实验使用了多个数据集，并且提供了开源代码。
相关研究

在最近的相关研究中，也有一些关于多模态理解和视觉感知的研究。例如：“VisualBERT: A Simple and Performant Baseline for Vision and Language”。

MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception

提问交流

提问交流