- 简介生成模型已经展示了在最小专业知识下合成逼真照片的巨大飞跃,引发了对在线信息真实性的担忧。本研究旨在开发一种通用的AI生成图像检测器,能够识别来自不同来源的图像。现有的方法在提供有限的样本来源时,很难在未见过的生成模型之间进行泛化。受预训练的视觉语言模型的零-shot可迁移性启发,我们试图利用CLIP-ViT的非平凡视觉世界知识和描述能力,以在未知领域上进行泛化。本文提出了一种新颖的参数高效的微调方法——低秩专家混合,以充分利用CLIP-ViT的潜力,同时保留知识和扩展可迁移检测的容量。我们通过在MoE结构中集成共享和独立的LoRA,仅调整更深层次的ViT块的MLP层。对公共基准测试的广泛实验表明,我们的方法在跨生成器泛化和对扰动的鲁棒性方面优于现有最先进的方法。值得注意的是,我们表现最佳的ViT-L/14变体只需训练其0.08%的参数即可超过领先基线+3.64% mAP和+12.72% avg.Acc,即使只用0.28%的训练数据也能优于基线。我们的代码和预训练模型将在https://github.com/zhliuworks/CLIPMoLE上提供。
- 图表
- 解决问题开发一种通用的AI生成图像检测器,能够识别来自不同来源的图像,解决虚假信息的真实性问题。
- 关键思路利用预训练的视觉-语言模型CLIP-ViT的视觉世界知识和描述能力来实现跨生成模型的泛化,通过混合低秩专家的参数高效微调,提高检测能力和泛化能力。
- 其它亮点论文提出的方法在公共基准测试中表现优异,比目前最先进的方法在跨生成器泛化和对扰动的鲁棒性方面都更胜一筹。甚至在只使用0.28%的训练数据时,最佳性能的ViT-L/14变体只需要训练0.08%的参数就能超越领先的基线。
- 最近的相关研究包括使用GAN生成图像的真实性检测和利用对抗训练的方法提高图像分类器的鲁棒性。
沙发等你来抢
去评论
评论
沙发等你来抢