Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

向作者提问

NEW

简介

虽然现有的多模态大语言模型（MLLMs）取得了显著进展，但在细粒度视觉识别方面仍然表现不佳。与以往的研究相反，我们从图像分辨率的角度研究了这个问题，并揭示了低分辨率和高分辨率视觉特征的组合可以有效地缓解这个缺点。基于这一观察结果，我们提出了一种新颖高效的MLLMs方法，称为分辨率混合适应（MRA）。特别地，MRA为不同分辨率的图像采用两个视觉通道，其中高分辨率视觉信息通过新颖的分辨率混合适配器（MR-Adapters）嵌入到低分辨率通道中。这种设计还大大缩短了MLLMs的输入序列长度。为了验证MRA，我们将其应用于最近的MLLMs LLaVA，并将新模型称为LLaVA-HR。我们在11个视觉语言（VL）任务上进行了广泛的实验，结果显示LLaVA-HR在8个VL任务上优于现有的MLLMs，例如，在TextVQA上提高了9.4%。更重要的是，LLaVA-HR的训练和推理都很高效，例如，与LLaVA-1.5相比，训练时间缩短了20小时，推理速度提高了3倍。源代码已发布在https://github.com/luogen1996/LLaVA-HR。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文试图通过什么方法解决多模态大语言模型中视觉识别粒度不足的问题？
关键思路

关键思路：论文采用低分辨率和高分辨率视觉特征相结合的方法，通过混合分辨率适配器将高分辨率视觉信息嵌入到低分辨率视觉路径中，从而提高多模态大语言模型的视觉识别粒度。
其它亮点

其他亮点：论文提出的方法名为Mixture-of-Resolution Adaptation (MRA)，并将其应用于名为LLaVA的多模态大语言模型，形成了新的模型LLaVA-HR。实验结果表明，LLaVA-HR在11个视觉-语言任务中表现优异，其中8个任务的表现超过了现有的多模态大语言模型。此外，论文还开源了代码。
相关研究

相关研究：最近的相关研究包括：1.《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》；2.《VisualBERT: A Simple and Performant Baseline for Vision and Language》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问