Who is Authentic Speaker

简介

使用深度学习技术的语音转换（VC）现在可以生成高质量的一对多声音，因此已经在一些实际应用领域中使用，例如娱乐和医疗保健。然而，当操纵的声音用于欺骗目的时，语音转换可能会引起潜在的社会问题。此外，由于源讲话者的声学特征发生了很大变化，因此很难从转换后的声音中找到真实的讲话者。在本文中，我们试图探索从转换后的声音中识别真实讲话者的可行性。本研究的假设是，即使他们的声音经过转换成不同的目标声音，源讲话者的某些信息仍然存在。因此，我们的实验旨在识别给定转换声音的源讲话者，这些声音是通过使用FragmentVC在源和目标讲话者的随机配对话语上生成的。为了提高对转换声音的鲁棒性，我们的识别模型是通过在深度神经网络中使用局部聚合描述符（VLAD）的分层向量构建的。真实讲话者识别系统主要在两个方面进行测试，包括转换声音的质量和VLAD的变化对其的影响。本研究使用的数据集是VCTK语料库，其中源和目标讲话者是随机配对的。在转换的话语上获得的结果表明，识别从转换声音中的真实讲话者的性能表现很有前途。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在探索从转换后的语音中识别真实说话者的可行性。这是一个新问题吗？
关键思路

通过使用深度神经网络中的本地聚合描述符（VLAD）的分层向量构建识别模型，以提高对转换后语音的鲁棒性，进而识别出源说话者。这一方案相比当前领域的研究有何新意？
其它亮点

论文使用VCTK语料库中的随机配对语音来测试他们的模型。实验结果表明，该模型在识别转换后语音中的真实说话者方面表现出很好的性能。值得注意的是，该论文提出的方法可以应用于防止语音欺诈等领域，具有很好的应用前景。
相关研究

最近在这个领域中，还有一些相关的研究，如“Deep Speaker Embeddings for Diarization and Verification”和“Speaker Recognition from Raw Waveform with SincNet”。

提问交流

提问交流