- 简介本文探讨了视觉语言模型(VLMs)如CLIP在零样本识别方面表现出色,但在语言理解和细粒度图像-文本对齐方面面临挑战的问题。本文研究了组合性和识别这两个VLM能力的关键方面之间错综复杂的关系。我们对现有的VLM进行了全面评估,包括针对识别的预训练方法和旨在提高组合性的微调方法。我们的评估涵盖了12个组合性基准测试和21个零样本分类以及两个检索基准测试。通过分析274个CLIP模型检查点,我们揭示了组合理解和识别准确性之间出现的模式和权衡。最终,这需要战略性的努力来开发既改善这两种能力,又精心制定组合性基准测试的模型。我们在https://github.com/ytaek-oh/vl_compo开放了我们的评估框架。
-
- 图表
- 解决问题本论文旨在探讨视觉语言模型(VLM)在组合性和识别方面的能力,并提出了改进这两种能力的方法。作者还试图制定组合性的评估标准。
- 关键思路论文通过对现有VLM的综合评估,发现组合性和识别准确性之间存在权衡,因此需要制定更好的评估标准和改进方法。
- 其它亮点论文使用12个组合性基准和21个零样本分类以及2个检索基准进行了全面评估,并公开了评估框架的代码。作者强调了组合性和识别准确性之间的权衡,并提出了一些改进方法。
- 与本论文相关的研究包括CLIP等VLM模型的研究,以及对组合性评估标准的研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流