- 简介本文研究了自监督预训练变形器与监督预训练变形器和传统神经网络(ConvNets)在检测各种类型的深度伪造方面的有效性。我们关注它们在数据有限的情况下提高泛化能力的潜力。尽管利用变形器架构的大型视觉语言模型在各种任务中取得了显著成功,包括零样本和少样本学习,但深度伪造检测社区仍然对预训练视觉变形器(ViTs)特别是大型ViTs作为特征提取器采用有所犹豫。一个担忧是它们被认为过度容量化,这通常需要大量数据,并导致训练或微调数据较少或不够多样化时的次优泛化。这与ConvNets形成了鲜明对比,后者已经被证明是强大的特征提取器。此外,从头开始训练和优化变形器需要大量的计算资源,这主要是大公司才能够做到的,这也阻碍了学术界的广泛研究。最近在变形器中使用自监督学习(SSL)的进展,例如DINO及其衍生产品,展示了在各种视觉任务中具有显着的适应性,并具有明确的语义分割能力。通过利用DINO进行深度伪造检测,使用适度的训练数据并实现部分微调,我们观察到了与任务的相当适应性以及通过注意机制的自然可解释性的检测结果。此外,变形器的部分微调为深度伪造检测提供了更节省资源的替代方案,需要的计算资源显著较少。
- 图表
- 解决问题本文研究了自监督预训练transformers相对于监督预训练transformers和传统神经网络(ConvNets)在检测各种类型deepfakes方面的有效性。重点关注它们在训练数据有限时的潜在改进通用性。
- 关键思路本文使用DINO进行自监督学习,实现了深度伪造检测任务的可比较适应性和自然可解释性,并提供了更节省计算资源的部分微调变体。
- 其它亮点本文使用DINO进行自监督学习,在深度伪造检测任务中表现出可比较适应性和自然可解释性。部分微调变体需要更少的计算资源。
- 最近在这个领域中,还有一些相关的研究,如:《On the Detection of Digital Face Manipulation》、《Learning to Detect Fake Face Images in the Wild》等。
沙发等你来抢
去评论
评论
沙发等你来抢