Making Large Multimodal Models Understand Arbitrary Visual Prompts

简介

现有的大型视觉-语言多模型通常侧重于整体图像理解，但在实现特定区域理解方面存在明显差距。目前使用文本坐标或空间编码的方法通常无法为视觉提示提供用户友好的界面。为解决这一挑战，我们引入了一种新颖的多模型，能够解码任意视觉提示。这使得用户可以直观地标记图像，并使用自然提示（如“红色边界框”或“指向箭头”）与模型进行交互。我们的简单设计直接将视觉标记叠加到RGB图像上，消除了复杂的区域编码需求，但在Visual7W、PointQA和Visual Commonsense Reasoning benchmark等区域理解任务上实现了最先进的性能。此外，我们提出了ViP-Bench，这是一个全面的基准，用于评估模型在多个维度上理解视觉提示的能力，为未来的研究提供了可能。代码、数据和模型都是公开可用的。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决视觉语言多模态模型中的区域理解问题，提出一种能够解码任意视觉提示的新型多模态模型，以提供更直观的用户界面。
关键思路

论文的关键思路是直接将视觉提示覆盖在RGB图像上，消除了复杂的区域编码，从而实现了区域理解任务的最新性能，并提出了ViP-Bench，以评估模型在多个维度上理解视觉提示的能力。
其它亮点

论文使用自然提示如'红色边框'或'箭头'，提供更直观的用户界面；实现了Visual7W、PointQA和Visual Commonsense Reasoning benchmark的最新性能；提出了ViP-Bench综合评估模型的能力；代码、数据和模型都已公开。
相关研究

相关研究包括使用文本坐标或空间编码的方法，以及其他视觉语言多模态模型的研究，如VQA和LXMERT。

Making Large Multimodal Models Understand Arbitrary Visual Prompts

提问交流

提问交流