- 简介细粒度的理解对象、属性以及对象之间的关系对于视觉语言模型(VLM)至关重要。现有的基准主要关注于评估VLM的能力,即在给定图像的情况下区分两个非常相似的“标题”。在本文中,我们介绍了一个新的、具有挑战性的基准,称为“视觉最小变化理解”(VisMin),它要求模型在给定两个图像和两个标题的情况下预测正确的图像-标题匹配。图像对和标题对包含最小的变化,即只有一个方面从以下方面之一发生变化:对象、属性、数量和空间关系。这些变化测试了模型对对象、属性(如颜色、材料、形状)、数量和对象之间的空间关系的理解能力。我们使用大型语言模型和扩散模型构建了一个自动框架,然后通过严格的4步验证过程进行人工注释。实证实验表明,当前的VLM在理解空间关系和计数能力方面存在明显的不足。我们还生成了一个大规模的训练数据集来微调CLIP和Idefics2,在基准测试和CLIP的通用图像-文本对齐方面显示出了显著的改进。我们在\url{https://vismin.net/}上发布了所有资源,包括基准测试、训练数据和微调模型的检查点。
-
- 图表
- 解决问题论文提出了一个新的基准测试VisMin,旨在评估视觉语言模型在理解对象、属性、计数和空间关系方面的能力。当前的基准测试主要关注模型在给定图像的两个非常相似的标题之间区分的能力。
- 关键思路VisMin基准测试要求模型在给定两个图像和两个标题的情况下预测正确的图像-标题匹配。图像对和标题对仅包含最小的变化,即只有一个方面会发生变化,包括对象、属性、计数和空间关系。作者使用大型语言模型和扩散模型构建了一个自动框架,并通过严格的4步验证过程进行了验证。
- 其它亮点论文指出当前视觉语言模型在理解空间关系和计数能力方面存在显著不足。作者还生成了一个大规模的训练数据集,用于微调CLIP和Idefics2,并在基准测试和CLIP的图像-文本对齐方面取得了显著的改进。作者在https://vismin.net/上公开了所有资源,包括基准测试、训练数据和微调模型检查点。
- 近期的相关研究包括:1. "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks";2. "VisualBERT: A Simple and Performant Baseline for Vision and Language";3. "Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training"。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流