- 简介随着音频生成技术的进步,生成模型可以产生高度逼真的音频。然而,深度伪造的通用音频的普及可能会带来负面影响。因此,我们提出了一个新任务,即深度伪造通用音频检测,旨在识别音频内容是否被篡改,并定位深度伪造区域。利用自动化篡改流程,提出了一个名为FakeSound的数据集,用于深度伪造通用音频检测,并且样本可以在https://FakeSoundData.github.io网站上查看。所有测试集上人类的平均二元准确率始终低于0.6,这表明人类在区分深度伪造音频方面面临的困难,并且证实了FakeSound数据集的有效性。提出了一个利用通用音频预训练模型的深度伪造检测模型作为基准系统。实验结果表明,所提出的模型在深度伪造语音检测和人类测试者方面的性能超过了现有技术水平。
-
- 图表
- 解决问题论文提出了一个新任务,即深度伪造通用音频检测,旨在识别音频内容是否被篡改并定位深度伪造区域。
- 关键思路论文提出了一种使用预训练的通用音频模型的深度伪造检测模型,并在FakeSound数据集上进行了实验,结果表明该模型的性能超过了当前深度伪造语音检测的最新技术。
- 其它亮点论文提出了FakeSound数据集,该数据集包含自动操纵流水线生成的深度伪造通用音频样本。实验结果表明,人类在所有测试集上的平均二元准确率一直低于0.6,这表明人类在辨别深度伪造音频方面面临的困难,并证实了FakeSound数据集的有效性。
- 最近的相关研究包括“DeepSBD: Deep Fake Video Detection Using Self-Consistent Bidirectional Learning”和“DeepFake Detection Using Recurrent Neural Networks”,其中前者提出了一种基于自洽双向学习的深度伪造视频检测方法,后者则提出了一种使用循环神经网络的深度伪造检测方法。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流