UTDUSS: UTokyo-SaruLab System for Interspeech2024 Speech Processing Using Discrete Speech Unit Challenge

2024年03月20日
  • 简介
    我们介绍了UTDUS,即东京大学-SaruLab系统,该系统参加了Interspeech2024离散语音单元挑战赛。该挑战赛专注于使用从大型语音语料库中学习的离散语音单元来完成某些任务。我们将我们的UTDUS系统提交到了两个文本到语音轨道:声码器和声学+声码器。我们的系统包含了仅在语音语料库上进行预训练的神经音频编解码器(NAC),这使得所学习的编解码器能够表示必要的丰富声学特征,以实现高保真的语音重建。对于声学+声码器轨道,我们基于Transformer编码器-解码器训练了一个声学模型,该模型可以从文本输入中预测预训练的NAC令牌。我们描述了构建这些模型的策略,例如数据选择、降采样和超参数调整。我们的系统在声码器和声学+声码器轨道上分别排名第二和第一。
  • 图表
  • 解决问题
    论文旨在解决Interspeech2024的Discrete Speech Unit Challenge中的两个文本转语音任务:Vocoder和Acoustic+Vocoder。具体而言,论文试图利用预训练的神经音频编解码器(NAC)和基于Transformer编码器-解码器的声学模型来提高语音合成的质量。
  • 关键思路
    论文的关键思路是将预训练的NAC与基于Transformer的声学模型相结合,以提高语音合成的质量。同时,论文还使用了数据选择、下采样和超参数调整等策略来构建模型。
  • 其它亮点
    论文的亮点包括:使用预训练的NAC来提高语音合成的质量;使用基于Transformer的声学模型来进一步提高语音合成的质量;采用数据选择、下采样和超参数调整等策略来构建模型;在Interspeech2024的Discrete Speech Unit Challenge中取得了Vocoder和Acoustic+Vocoder两个任务的第二名和第一名。
  • 相关研究
    最近在这个领域中,还有其他一些相关研究,例如:《Neural Speech Codec with Multi-Resolution Spectrogram Prediction for Low-Bitrate Speech Coding》、《Hierarchical Generative Modeling for Controllable Speech Synthesis》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论