Attention Prompting on Image for Large Vision-Language Models

简介

与大型语言模型（LLMs）相比，大型视觉语言模型（LVLMs）也可以接受图像作为输入，从而展示出更有趣的新兴能力，并在各种视觉语言任务中展现出令人印象深刻的性能。受LLMs中的文本提示的启发，已经探索了视觉提示来增强LVLMs感知视觉信息的能力。然而，以前的视觉提示技术仅处理视觉输入而不考虑文本查询，限制了模型完成任务遵循文本指令的能力。为了填补这一空白，本文提出了一种新的提示技术，名为Attention Prompting on Image，它只是简单地在原始输入图像上叠加一个文本查询引导的注意力热图，有效地增强了LVLM在各种任务上的表现。具体而言，我们使用像CLIP这样的辅助模型为输入图像生成依赖于文本查询的注意力热图。然后，该热图仅将原始图像的像素值相乘以获得LVLM的实际输入图像。在各种视觉语言基准测试中进行的广泛实验验证了我们技术的有效性。例如，Attention Prompting on Image将LLaVA-1.5在MM-Vet和LLaVA-Wild基准测试中分别提高了3.8％和2.9％。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提出一种新的视觉提示技术，名为Attention Prompting on Image，以提高大规模视觉语言模型（LVLMs）在各种任务上的性能。
关键思路

该技术通过在原始输入图像上覆盖一个文本查询引导的注意力热图来增强LVLM的视觉感知能力，从而更好地按照文本指令完成任务。
其它亮点

论文通过实验验证了Attention Prompting on Image技术的有效性，并在多个视觉语言基准测试中取得了显著的改进。实验使用了CLIP等辅助模型生成与文本查询相关的注意力热图，提高了模型的性能。
相关研究

在最近的研究中，也有一些探索视觉提示技术的工作，但是这些技术都没有考虑到文本查询的影响。

Attention Prompting on Image for Large Vision-Language Models

提问交流

提问交流