An Attribute Interpolation Method in Speech Synthesis by Model Merging

2024年06月30日
  • 简介
    随着语音合成技术的发展,近期的研究集中在挑战性任务,如说话者生成和情感强度控制。属性插值是这些任务的常见方法。然而,大多数以前的属性插值方法需要特定的模块或训练方法。我们提出了一种通过模型合并进行语音合成属性插值的方法。模型合并是一种方法,仅通过对基础模型的参数进行平均来创建新参数。合并后的模型可以生成具有基础模型中间特征的输出。该方法很容易应用,不需要特定的模块或训练方法,因为它仅使用现有的训练基础模型。我们合并了两个文本到语音模型来实现属性插值,并在说话者生成和情感强度控制任务上评估了其性能。结果,我们提出的方法实现了平滑的属性插值,同时保持了两个任务中的语言内容。
  • 图表
  • 解决问题
    论文旨在解决语音合成中的属性插值问题,即如何在保持语言内容的同时实现说话人和情感属性的平滑过渡。这是一个已知的问题,但以前的方法需要特定的模块或训练方法。
  • 关键思路
    论文提出了一种通过模型合并实现属性插值的方法。模型合并是一种方法,通过仅对基础模型的参数进行平均,创建新参数。合并后的模型可以生成具有基础模型中间特征的输出。
  • 其它亮点
    论文使用现有的两个文本到语音模型,通过模型合并实现了说话人生成和情感强度控制两个任务的属性插值。实验结果表明,该方法能够平滑地实现属性插值,同时保持语言内容。
  • 相关研究
    最近的相关研究包括使用属性控制方法进行语音合成的研究,如StarGAN-VC和CycleGAN-VC。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论