- 简介我们采用基于反演的方法来检查CLIP模型。我们的检查揭示,反演CLIP模型会生成与指定目标提示语义对齐的图像。我们利用这些反演图像来深入了解CLIP模型的各个方面,例如它们融合概念的能力和包含的性别偏见。我们特别观察到在模型反演期间出现了NSFW(不适宜上班族观看)图像的情况。即使是语义上无害的提示,如“美丽的风景”,以及涉及名人姓名的提示,也会出现这种现象。
-
- 图表
- 解决问题本论文旨在通过倒置CLIP模型来研究其内部运作机制,揭示其在概念融合和性别偏见方面的表现,并探讨其生成NSFW图像的原因。
- 关键思路通过倒置CLIP模型生成图像,发现其与指定的目标提示具有语义对齐性,并利用这些倒置图像来研究CLIP模型的各个方面。
- 其它亮点论文使用了倒置CLIP模型的方法来探究其内部机制,发现了模型在概念融合和性别偏见方面的表现,并发现了生成NSFW图像的现象。实验使用了多个数据集,包括ImageNet和CelebA-HQ,并开源了代码。
- 最近的相关研究包括GAN、VAE和其他生成模型的应用,以及对神经网络内部机制的研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~

提问交流