What do we learn from inverting CLIP models?

简介

我们采用基于反演的方法来检查CLIP模型。我们的检查揭示，反演CLIP模型会生成与指定目标提示语义对齐的图像。我们利用这些反演图像来深入了解CLIP模型的各个方面，例如它们融合概念的能力和包含的性别偏见。我们特别观察到在模型反演期间出现了NSFW（不适宜上班族观看）图像的情况。即使是语义上无害的提示，如“美丽的风景”，以及涉及名人姓名的提示，也会出现这种现象。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在通过倒置CLIP模型来研究其内部运作机制，揭示其在概念融合和性别偏见方面的表现，并探讨其生成NSFW图像的原因。
关键思路

通过倒置CLIP模型生成图像，发现其与指定的目标提示具有语义对齐性，并利用这些倒置图像来研究CLIP模型的各个方面。
其它亮点

论文使用了倒置CLIP模型的方法来探究其内部机制，发现了模型在概念融合和性别偏见方面的表现，并发现了生成NSFW图像的现象。实验使用了多个数据集，包括ImageNet和CelebA-HQ，并开源了代码。
相关研究

最近的相关研究包括GAN、VAE和其他生成模型的应用，以及对神经网络内部机制的研究。