HAM-TTS: Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech with Model and Data Scaling

2024年03月09日
  • 简介
    这篇文章介绍了一种新的分层声学建模方法,配合量身定制的数据增强策略,将真实数据和合成数据相结合,将数据规模扩大到650k小时,从而实现了零样本TTS模型,参数数量达到了0.8B。具体而言,该方法通过一个预测器将一个包含精细自监督学习(SSL)离散单元的潜变量序列合并到TTS模型中,从而显著减轻了合成语音中的发音错误和风格变异。在训练过程中,作者通过替换和复制数据段的策略来增强音色的一致性。此外,作者还利用预训练的少样本语音转换模型生成了大量具有相同内容但音色各异的声音,从而丰富了语音多样性,同时确保了音色的一致性。比较实验表明,与VALL-E相比,该模型在发音精度、保持说话风格以及音色连续性方面具有优越性。
  • 图表
  • 解决问题
    论文旨在解决基于token的文本转语音(TTS)模型存在的发音准确性低、语音风格和音色不一致以及需要多样化训练数据等问题。
  • 关键思路
    论文提出了一种新的分层声学建模方法,并采用定制的数据增强策略对真实数据和合成数据进行训练,使得零样本TTS模型参数达到0.8B。该方法通过预测器将包含精细自监督学习(SSL)离散单元的潜在变量序列纳入TTS模型中,从而显著减轻了合成语音中的发音错误和风格变异。在训练过程中,作者采用了策略性替换和复制数据片段的方法来增强音色的一致性。此外,预训练的少样本语音转换模型被用来生成大量具有相同内容但音色不同的声音,从而丰富了语音的多样性并确保了音色的一致性。
  • 其它亮点
    论文的实验采用了650k小时的真实数据和合成数据进行训练,并使用了预训练的少样本语音转换模型来生成大量具有相同内容但音色不同的声音。实验结果表明,该模型在发音准确性、语音风格的一致性以及音色的连续性方面优于VALL-E。论文的数据集和代码已经开源。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如FastSpeech、Parallel WaveGAN等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论