- 简介随着Deepfake技术的不断改进,伪造信息已经从单模态转变为多模态融合,给现有的伪造检测算法带来了新的挑战。本文提出了AVT2-DWF,即基于动态权重融合的音视频双重Transformer,旨在放大单模态和跨模态伪造线索,从而增强检测能力。AVT2-DWF采用双阶段方法,捕捉面部表情的空间特征和时间动态,通过面部Transformer和音频Transformer编码器实现。随后,它使用动态权重融合的多模态转换来解决音频和视觉模态之间异构信息融合的挑战。在DeepfakeTIMIT、FakeAVCeleb和DFDC数据集上的实验表明,AVT2-DWF在单数据集和跨数据集Deepfake检测方面实现了最先进的性能。代码可在https://github.com/raining-dev/AVT2-DWF找到。
- 图表
- 解决问题本文试图解决多模态深度伪造检测中的新挑战,即单模态到多模态融合的问题。
- 关键思路本文提出了一种名为AVT2-DWF的深度学习模型,包含音频和视频双重转换器和动态权重融合模块,以增强深度伪造检测的能力。
- 其它亮点本文的实验结果表明,AVT2-DWF在多个数据集上都取得了最先进的性能,同时作者还开源了代码。
- 近期的相关研究包括:Deepfake Detection Challenge (DFDC)、FaceForensics++、MesoNet等。
沙发等你来抢
去评论
评论
沙发等你来抢