- 简介使用深度学习技术的语音转换(VC)现在可以生成高质量的一对多声音,因此已经在一些实际应用领域中使用,例如娱乐和医疗保健。然而,当操纵的声音用于欺骗目的时,语音转换可能会引起潜在的社会问题。此外,由于源讲话者的声学特征发生了很大变化,因此很难从转换后的声音中找到真实的讲话者。在本文中,我们试图探索从转换后的声音中识别真实讲话者的可行性。本研究的假设是,即使他们的声音经过转换成不同的目标声音,源讲话者的某些信息仍然存在。因此,我们的实验旨在识别给定转换声音的源讲话者,这些声音是通过使用FragmentVC在源和目标讲话者的随机配对话语上生成的。为了提高对转换声音的鲁棒性,我们的识别模型是通过在深度神经网络中使用局部聚合描述符(VLAD)的分层向量构建的。真实讲话者识别系统主要在两个方面进行测试,包括转换声音的质量和VLAD的变化对其的影响。本研究使用的数据集是VCTK语料库,其中源和目标讲话者是随机配对的。在转换的话语上获得的结果表明,识别从转换声音中的真实讲话者的性能表现很有前途。
-
- 图表
- 解决问题论文旨在探索从转换后的语音中识别真实说话者的可行性。这是一个新问题吗?
- 关键思路通过使用深度神经网络中的本地聚合描述符(VLAD)的分层向量构建识别模型,以提高对转换后语音的鲁棒性,进而识别出源说话者。这一方案相比当前领域的研究有何新意?
- 其它亮点论文使用VCTK语料库中的随机配对语音来测试他们的模型。实验结果表明,该模型在识别转换后语音中的真实说话者方面表现出很好的性能。值得注意的是,该论文提出的方法可以应用于防止语音欺诈等领域,具有很好的应用前景。
- 最近在这个领域中,还有一些相关的研究,如“Deep Speaker Embeddings for Diarization and Verification”和“Speaker Recognition from Raw Waveform with SincNet”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流