Exploring the Spectrum of Visio-Linguistic Compositionality and Recognition

简介

本文探讨了视觉语言模型（VLMs）如CLIP在零样本识别方面表现出色，但在语言理解和细粒度图像-文本对齐方面面临挑战的问题。本文研究了组合性和识别这两个VLM能力的关键方面之间错综复杂的关系。我们对现有的VLM进行了全面评估，包括针对识别的预训练方法和旨在提高组合性的微调方法。我们的评估涵盖了12个组合性基准测试和21个零样本分类以及两个检索基准测试。通过分析274个CLIP模型检查点，我们揭示了组合理解和识别准确性之间出现的模式和权衡。最终，这需要战略性的努力来开发既改善这两种能力，又精心制定组合性基准测试的模型。我们在https://github.com/ytaek-oh/vl_compo开放了我们的评估框架。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在探讨视觉语言模型（VLM）在组合性和识别方面的能力，并提出了改进这两种能力的方法。作者还试图制定组合性的评估标准。
关键思路

论文通过对现有VLM的综合评估，发现组合性和识别准确性之间存在权衡，因此需要制定更好的评估标准和改进方法。
其它亮点

论文使用12个组合性基准和21个零样本分类以及2个检索基准进行了全面评估，并公开了评估框架的代码。作者强调了组合性和识别准确性之间的权衡，并提出了一些改进方法。
相关研究

与本论文相关的研究包括CLIP等VLM模型的研究，以及对组合性评估标准的研究。

Exploring the Spectrum of Visio-Linguistic Compositionality and Recognition

提问交流

提问交流