- 简介视觉和语言模型(VLMs)在各种任务中继续展示出卓越的零-shot(ZS)表现。然而,许多探索性研究揭示出,即使是表现最佳的VLMs也难以捕捉组合场景理解的方面,缺乏在图像中正确定位和定位语言短语的能力。最近的VLMs进展包括扩大模型和数据集的规模,增加训练目标和监督级别,以及模型架构的变化。为了表征VLMs的定位能力,例如短语定位、指称表达理解和关系理解,Pointing Game已被用作具有边界框注释的数据集的评估指标。在本文中,我们介绍了一套新的定量指标,利用GradCAM激活来严格评估预训练的VLMs(如CLIP、BLIP和ALBEF)的定位能力。这些指标提供了一种可解释和可量化的方法,用于更详细地比较VLMs的零-shot能力,并能够测量模型的定位不确定性。这种表征揭示了模型规模、数据集规模和性能之间的有趣权衡。
-
- 图表
- 解决问题本论文旨在评估预训练的视觉语言模型(VLMs)的定位能力,即它们是否能够正确地将自然语言短语与图像中的对象相匹配。同时,论文还试图探索VLMs在这方面的不确定性。
- 关键思路论文提出了一种新的基于GradCAM激活的定量度量方法,用于评估VLMs的定位能力。这些指标可以用于比较不同模型和数据集的性能,并揭示模型大小、数据集大小和性能之间的权衡。
- 其它亮点论文通过Pointing Game评估了VLMs的定位能力,并提出了一种新的基于GradCAM激活的度量方法。实验结果表明,VLMs在定位能力上存在一定的不确定性,并且模型大小和数据集大小对性能有影响。论文使用了CLIP、BLIP和ALBEF等预训练模型,并使用了多个数据集进行实验。论文开源了代码和数据集。
- 近期的相关研究包括《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流