Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models

简介

为了弥合视觉和语言模态之间的差距，多模态大语言模型（MLLM）通常学习一个适配器，将视觉输入转换为大语言模型（LLM）可以理解的标记。然而，大多数适配器会生成一致的视觉标记，而不管提示中提到的特定对象。由于这些适配器在图像中分配了相等的注意力并关注整个场景，因此它们可能增加LLM的认知负荷，特别是在处理复杂场景时。为了缓解这个问题，我们提出了提示感知适配器。这些适配器具有根据提示的特定重点动态嵌入视觉输入的能力。具体来说，提示感知适配器利用全局和局部文本特征，在粗粒度和细粒度级别上捕捉提示中最相关的视觉线索。这种方法显著增强了LLM理解和解释视觉内容的能力。各种视觉问答任务（如计数和位置推理）的实验表明了提示感知适配器的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本篇论文旨在解决Multimodal Large Language Models (MLLMs)中适配器生成的视觉token不具备针对性的问题，从而增强LLMs对于视觉内容的理解和解释能力。
关键思路

本文提出了prompt-aware适配器的概念，通过全局和局部文本特征来动态嵌入视觉输入，从而捕捉与prompt相关的视觉线索，使LLMs能够更好地处理视觉内容。
其它亮点

本文的实验结果表明，prompt-aware适配器能够显著提高LLMs在各种视觉问答任务中的表现。文中还介绍了实验设计、使用的数据集和开源代码等信息。
相关研究

与本文相关的研究包括：《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。

Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models

提问交流

提问交流