- 简介深度图像合成技术的进步,如生成对抗网络(GAN)和扩散模型(DM),已经开启了一个生成高度逼真图像的时代。虽然这种技术进步引起了人们的广泛关注,但也引发了人们对于区分真实图像和合成图像的潜在困难的担忧。本文借鉴了视觉和语言之间强大的收敛能力以及视觉-语言模型(VLM)的零样本特性,提出了一种名为Bi-LORA的创新方法,利用VLM和低秩适应(LORA)调整技术来提高对于未知模型生成的合成图像的精度。我们方法的关键概念转变在于将二元分类重新构建为图像字幕生成任务,利用先进的VLM的独特能力,特别是引导语言图像预训练(BLIP2)。我们进行了严格全面的实验来验证我们提出的方法的有效性,特别是在检测训练期间未知扩散生成模型的未见合成图像方面,展示了对噪声的鲁棒性,并展示了对GAN的泛化能力。实验结果表明,我们的方法在未知生成模型的合成图像检测方面平均准确率达到了93.41%。本研究相关的代码和模型可在https://github.com/Mamadou-Keita/VLM-DETECT上公开访问。
-
- 图表
- 解决问题本文旨在提高对合成图像的检测精度,特别是对于未知的生成模型生成的图像,以解决深度图像合成技术带来的真实图像与合成图像难以区分的问题。
- 关键思路本文提出一种名为Bi-LORA的方法,将二元分类转化为图像字幕任务,利用Vision-Language Model(VLM)的独特能力,结合低秩适应性(LORA)调整技术,提高了对未知模型生成的合成图像的检测精度。
- 其它亮点本文使用了BLIP2进行语言图像预训练,进行了严格的实验来验证所提出的方法的有效性,并展示了对噪声的鲁棒性和对GAN的泛化能力。实验结果表明,Bi-LORA方法在对未知生成模型生成的合成图像进行检测时,平均准确率达到93.41%。此外,本文提供了代码和模型,并公开了https://github.com/Mamadou-Keita/VLM-DETECT。
- 在这个领域中,最近的相关研究包括GAN和DM等深度图像合成技术,以及利用VLMs进行图像字幕生成和视觉推理的研究,如ViLBERT、LXMERT等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流