Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs

简介

Vision Language Models（VLMs）展现出了在解决各种需要强大感知和推理能力的视觉问题方面的显著熟练程度。尽管现有的VLMs中看和推理的相互交织使得对这两种能力进行独立评估具有困难，但对于模型的改进，独立评估这两种能力至关重要。为了解决这个问题，我们提出了Prism，这是一个创新性的框架，旨在分离视觉问题解决中涉及的感知和推理过程。Prism包括两个不同的阶段：一个感知阶段，利用VLM以文本形式提取和表达视觉信息，以及一个推理阶段，利用大型语言模型（LLM）根据提取的视觉信息制定响应。这种模块化设计使得可以系统地比较和评估专有和开源VLM的感知和推理能力。我们的分析框架提供了几个有价值的见解，强调了Prism作为一种成本效益高的视觉语言任务解决方案的潜力。通过将专注于感知的简化VLM与专为推理而设计的强大LLM相结合，Prism在一般的视觉语言任务中取得了卓越的结果，同时大大降低了培训和运营开销。定量评估显示，当使用普通的2B LLaVA和免费访问的GPT-3.5配置Prism时，在严格的多模式基准MMStar上，Prism的表现与比其大10倍的VLMs相当。该项目已发布在：https://github.com/SparksJoe/Prism。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

解决问题：论文旨在解决现有视觉-语言模型中知觉和推理过程相互交织的问题，提出了Prism框架，以分离这两个过程并比较它们的性能。
关键思路

关键思路：Prism框架由两个阶段组成，一个利用VLM提取和表达视觉信息的知觉阶段，一个利用LLM基于提取的视觉信息进行推理的推理阶段。这种模块化设计可以系统地比较和评估专有和开源VLM的知觉和推理能力。
其它亮点

其他亮点：Prism框架在通用视觉-语言任务中取得了优异的结果，同时大大降低了培训和运营成本。使用vanilla 2B LLaVA和免费的GPT-3.5配置的Prism在MMStar基准测试中表现与10倍更大的VLM相当。该项目已在GitHub上发布。
相关研究

相关研究：最近的相关研究包括ViLBERT、LXMERT和UNITER等视觉-语言模型。

Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs

提问交流

提问交流