- 简介视觉-语言模型(VLM)通常由视觉编码器(例如CLIP)和一个语言模型(LM)组成,该模型解释编码特征以解决下游任务。尽管取得了显著进展,但VLM由于视觉编码器的能力有限,例如对某些图像特征的“盲点”、视觉幻觉等,存在几个缺点。为了解决这些问题,我们研究了扩展VLM视觉编码能力的方法。首先,我们全面评估了几种具有不同归纳偏差的视觉编码器,用于解决VLM任务。我们观察到,没有单一的编码配置能够在不同任务中始终实现最佳性能,并且具有不同偏差的编码器可以表现出惊人的相似性。受此启发,我们引入了一种名为BRAVE的方法,将多个冻结编码器的特征合并成更多样化的表示,可直接作为冻结LM的输入。BRAVE在广泛的字幕和VQA基准测试中实现了最先进的性能,并显著减少了VLM的上述问题,同时需要比现有方法更少的可训练参数并具有更压缩的表示。我们的结果突显了将不同的视觉偏差纳入VLM中以实现更广泛和上下文化的视觉理解的潜力。
-
- 图表
- 解决问题本文旨在解决视觉-语言模型(VLMs)存在的问题,如图像特征的局限性、视觉幻觉等。同时,论文试图验证使用多种视觉编码器的组合是否能够提高VLMs的表现。
- 关键思路本文提出了一种名为BRAVE的方法,将多个冻结的视觉编码器的特征结合起来,形成更具多样性和全面性的视觉表示,直接输入到冻结的语言模型中,从而提高VLMs的性能。
- 其它亮点本文通过对多种视觉编码器的综合评估发现,没有一种编码器配置能够在不同任务中始终实现最佳性能。BRAVE方法在多个图像字幕和VQA基准测试中取得了最先进的性能,并显著降低了VLMs的局限性,同时需要的可训练参数更少,表示更加压缩。论文还开源了代码和预训练模型。
- 与本文相关的研究包括使用不同的视觉编码器来提高VLMs性能的其他工作,如UNITER、DALL-E 2等。
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流