Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models

2024年05月24日
  • 简介
    为了弥合视觉和语言模态之间的差距,多模态大语言模型(MLLM)通常学习一个适配器,将视觉输入转换为大语言模型(LLM)可以理解的标记。然而,大多数适配器会生成一致的视觉标记,而不管提示中提到的特定对象。由于这些适配器在图像中分配了相等的注意力并关注整个场景,因此它们可能增加LLM的认知负荷,特别是在处理复杂场景时。为了缓解这个问题,我们提出了提示感知适配器。这些适配器具有根据提示的特定重点动态嵌入视觉输入的能力。具体来说,提示感知适配器利用全局和局部文本特征,在粗粒度和细粒度级别上捕捉提示中最相关的视觉线索。这种方法显著增强了LLM理解和解释视觉内容的能力。各种视觉问答任务(如计数和位置推理)的实验表明了提示感知适配器的有效性。
  • 作者讲解
  • 图表
  • 解决问题
    本篇论文旨在解决Multimodal Large Language Models (MLLMs)中适配器生成的视觉token不具备针对性的问题,从而增强LLMs对于视觉内容的理解和解释能力。
  • 关键思路
    本文提出了prompt-aware适配器的概念,通过全局和局部文本特征来动态嵌入视觉输入,从而捕捉与prompt相关的视觉线索,使LLMs能够更好地处理视觉内容。
  • 其它亮点
    本文的实验结果表明,prompt-aware适配器能够显著提高LLMs在各种视觉问答任务中的表现。文中还介绍了实验设计、使用的数据集和开源代码等信息。
  • 相关研究
    与本文相关的研究包括:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问