- 简介本文提出了一个基于深度学习的系统,用于深度伪造音频检测任务。具体而言,首先使用三种转换方法(短时傅里叶变换(STFT)、常量Q变换(CQT)和小波变换(WT))结合不同的基于听觉的滤波器(Mel、Gammatone、线性滤波器(LF)和离散余弦变换(DCT))将输入音频转换为各种频谱图。给定这些频谱图,我们评估了基于三种深度学习方法的广泛分类模型。第一种方法是直接使用我们提出的基线模型(基于CNN的模型(CNN-baseline)、基于RNN的模型(RNN-baseline)、C-RNN模型(C-RNN baseline))对频谱图进行训练。同时,第二种方法是从计算机视觉模型(如ResNet-18、MobileNet-V3、EfficientNet-B0、DenseNet-121、SuffleNet-V2、Swint、Convnext-Tiny、GoogLeNet、MNASsnet、RegNet)进行迁移学习。在第三种方法中,我们利用最先进的音频预训练模型(Whisper、Seamless、Speechbrain和Pyannote)从输入频谱图中提取音频嵌入。然后,通过多层感知机(MLP)模型探索音频嵌入,以检测伪造或真实的音频样本。最后,这些方法中的高性能深度学习模型被融合以实现最佳性能。我们在ASVspoof 2019基准数据集上评估了我们提出的模型。我们的最佳集成模型实现了0.03的等误差率(EER),这与ASVspoofing 2019挑战中表现最好的系统相当竞争力。实验结果还突显了选择性频谱图和深度学习方法增强音频深度伪造检测任务的潜力。
- 图表
- 解决问题本文旨在提出一种基于深度学习的系统来检测深度伪造音频。
- 关键思路将输入音频转换为不同的频谱图,然后使用三种深度学习方法进行分类:直接训练基于卷积神经网络(CNN)或循环神经网络(RNN)的基线模型,使用计算机视觉模型进行迁移学习,或使用预训练的音频模型提取音频嵌入。最终将这些方法的高性能深度学习模型进行融合以达到最佳性能。
- 其它亮点论文使用ASVspoof 2019基准数据集进行评估,并获得了0.03的等错误率(EER),这与ASVspoofing 2019挑战中的表现最好的系统相当竞争力。此外,论文还突出了选择性频谱图和深度学习方法提高音频深度伪造检测的潜力。
- 在这个领域中,最近的相关研究包括:'Deepfake Detection Based on Attention Mechanism and Convolutional Neural Network','An Overview of Deep Learning Based Methods for Audio and Speech Processing','Deep Learning for Audio Signal Processing: A Review'等。
沙发等你来抢
去评论
评论
沙发等你来抢