What do we learn from inverting CLIP models?

2024年03月05日
  • 简介
    我们采用基于反演的方法来检查CLIP模型。我们的检查揭示,反演CLIP模型会生成与指定目标提示语义对齐的图像。我们利用这些反演图像来深入了解CLIP模型的各个方面,例如它们融合概念的能力和包含的性别偏见。我们特别观察到在模型反演期间出现了NSFW(不适宜上班族观看)图像的情况。即使是语义上无害的提示,如“美丽的风景”,以及涉及名人姓名的提示,也会出现这种现象。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在通过倒置CLIP模型来研究其内部运作机制,揭示其在概念融合和性别偏见方面的表现,并探讨其生成NSFW图像的原因。
  • 关键思路
    通过倒置CLIP模型生成图像,发现其与指定的目标提示具有语义对齐性,并利用这些倒置图像来研究CLIP模型的各个方面。
  • 其它亮点
    论文使用了倒置CLIP模型的方法来探究其内部机制,发现了模型在概念融合和性别偏见方面的表现,并发现了生成NSFW图像的现象。实验使用了多个数据集,包括ImageNet和CelebA-HQ,并开源了代码。
  • 相关研究
    最近的相关研究包括GAN、VAE和其他生成模型的应用,以及对神经网络内部机制的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~