Reimagining Speech: A Scoping Review of Deep Learning-Powered Voice Conversion

2023年11月14日
  • 简介
    研究基于深度学习的语音转换在语音到语音场景中的应用越来越受欢迎。虽然语音转换领域的许多作品共享相同的全局流程,但在研究工作中使用的底层结构、方法和神经子块存在相当大的多样性。因此,全面理解语音转换流程中选择不同方法的原因可能具有挑战性,并且所提出的解决方案中的实际障碍通常不清楚。为了阐明这些方面,本文提出了一个范围性综述,探讨了深度学习在现代语音转换系统中的语音分析、合成和分离语音表示学习方面的应用。我们筛选了从2017年到2023年间来自38个不同场所的621篇出版物,并对最终的123篇符合条件的研究进行了深入的审查。基于审查,我们总结了基于深度学习的语音转换中最常用的方法,并强调了社区内的常见陷阱。最后,我们总结了所收集的知识,确定了主要挑战,并提供了未来研究方向的建议。
  • 图表
  • 解决问题
    本论文旨在探索深度学习在语音转换中的应用,总结常用的方法和存在的问题,提出未来研究方向。
  • 关键思路
    本论文通过对123篇论文的综合分析,总结了语音转换中常用的深度学习方法,并指出了存在的问题和挑战。
  • 其它亮点
    本论文重点介绍了语音分析、合成和去耦合语音表示学习等方面的深度学习方法,并探讨了其中的常见问题。实验使用了多个数据集,并提供了一些开源代码。未来的研究方向包括更好的去耦合表示学习、更好的模型选择和更好的评估指标。
  • 相关研究
    近年来,关于语音转换的深度学习研究很活跃。一些相关的论文包括:“A Universal Music Translation Network”、“Neural Voice Conversion for Text-to-Speech: A Review”和“Deep Learning for Voice Conversion: A Review”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论