Q-GroundCAM: Quantifying Grounding in Vision Language Models via GradCAM

向作者提问

NEW

简介

视觉和语言模型（VLMs）在各种任务中继续展示出卓越的零-shot（ZS）表现。然而，许多探索性研究揭示出，即使是表现最佳的VLMs也难以捕捉组合场景理解的方面，缺乏在图像中正确定位和定位语言短语的能力。最近的VLMs进展包括扩大模型和数据集的规模，增加训练目标和监督级别，以及模型架构的变化。为了表征VLMs的定位能力，例如短语定位、指称表达理解和关系理解，Pointing Game已被用作具有边界框注释的数据集的评估指标。在本文中，我们介绍了一套新的定量指标，利用GradCAM激活来严格评估预训练的VLMs（如CLIP、BLIP和ALBEF）的定位能力。这些指标提供了一种可解释和可量化的方法，用于更详细地比较VLMs的零-shot能力，并能够测量模型的定位不确定性。这种表征揭示了模型规模、数据集规模和性能之间的有趣权衡。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在评估预训练的视觉语言模型（VLMs）的定位能力，即它们是否能够正确地将自然语言短语与图像中的对象相匹配。同时，论文还试图探索VLMs在这方面的不确定性。
关键思路

论文提出了一种新的基于GradCAM激活的定量度量方法，用于评估VLMs的定位能力。这些指标可以用于比较不同模型和数据集的性能，并揭示模型大小、数据集大小和性能之间的权衡。
其它亮点

论文通过Pointing Game评估了VLMs的定位能力，并提出了一种新的基于GradCAM激活的度量方法。实验结果表明，VLMs在定位能力上存在一定的不确定性，并且模型大小和数据集大小对性能有影响。论文使用了CLIP、BLIP和ALBEF等预训练模型，并使用了多个数据集进行实验。论文开源了代码和数据集。
相关研究

近期的相关研究包括《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问