Are Vision Language Models Texture or Shape Biased and Can We Steer Them?

简介

视觉语言模型（VLM）在短短几年内彻底改变了计算机视觉模型的格局，为零样本图像分类、图像字幕和视觉问答等新应用开辟了令人兴奋的领域。与纯视觉模型不同，它们提供了一种通过语言提示访问视觉内容的直观方式。这种模型的广泛适用性鼓励我们思考它们是否也与人类视觉相一致，特别是它们通过多模态融合采用了多少人类引发的视觉偏见，或者它们是否仅继承了纯视觉模型的偏见。一个重要的视觉偏见是纹理与形状偏见，或者局部信息优于全局信息。在本文中，我们研究了这种偏见在广泛流行的VLM中的表现。有趣的是，我们发现VLM通常比它们的视觉编码器更加偏向于形状，这表明通过文本在多模态模型中调节视觉偏见到一定程度上是可行的。如果文本确实影响视觉偏见，这意味着我们不仅可以通过视觉输入来引导视觉偏见，还可以通过语言来引导视觉偏见，这一假设通过大量实验得到了证实。例如，我们能够仅通过提示将形状偏见从49%提高到72%。目前，96%的强烈人类形状偏见对于所有测试过的VLM都是无法达到的。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在研究视觉语言模型（VLMs）中的形状偏差和纹理偏差，并探讨VLMs是否受到人类视觉偏差的影响。
关键思路

本论文发现VLMs通常比视觉编码器更偏向形状，这表明文本在多模态模型中调节视觉偏差的程度。论文通过大量实验验证了这一假设，并证实了通过提示语言可以引导视觉偏差。
其它亮点

论文使用了多个流行的VLMs进行实验，并在多个数据集上进行了测试。实验结果表明，通过提示语言可以调节VLMs中的形状偏差。该论文的工作有助于进一步理解人类视觉偏差是如何通过多模态模型传递的，以及如何通过语言提示来引导视觉偏差。
相关研究

在相关研究方面，最近的研究包括“图像分类”、“图像生成”和“视觉问答”等领域。

Are Vision Language Models Texture or Shape Biased and Can We Steer Them?

提问交流

提问交流