Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer

2024年06月03日
  • 简介
    虽然最近语音语言模型取得了显著的进展,但它们在建模神经音频编解码器的长声学序列方面面临着显著的挑战。本文介绍了一种名为GPST(Generative Pre-trained Speech Transformer)的分层Transformer,旨在实现高效的语音语言建模。GPST将音频波形量化为两种不同类型的离散语音表示,并将它们集成到分层Transformer架构中,实现统一的一阶段生成过程,增强了高分辨率音频生成能力。通过以端到端无监督的方式在大型语音语料库上进行训练,GPST可以生成具有不同说话人身份的句法一致的语音。在给定简短的3秒提示的情况下,GPST可以产生自然、连贯的个性化语音,展示了上下文学习的能力。此外,我们的方法可以通过加入多语义令牌和通用声学令牌轻松扩展到跨语言语音生成。实验结果表明,GPST在词错误率、语音质量和说话人相似性方面显著优于现有的语音语言模型。请参见\url{https://youngsheen.github.io/GPST/demo}以查看演示样本。
  • 图表
  • 解决问题
    论文试图通过引入一种新的层次Transformer模型GPST,解决语音编解码中的长序列问题,提高语音生成的质量和效率。
  • 关键思路
    GPST将音频波形量化为两种离散的语音表示,并将它们集成到层次Transformer架构中,使得生成过程更加高效,同时提高Hi-Res音频的生成能力。通过在大型语料库上进行端到端无监督训练,GPST能够生成具有多样化说话人身份的语法一致的语音。
  • 其它亮点
    论文的实验结果表明,GPST相比于现有的语音语言模型在词错误率、语音质量和说话人相似度方面都有显著提升。此外,GPST还可以通过引入多语义标记和通用声学标记来轻松扩展到跨语言语音生成。论文提供了在线演示和开源代码。
  • 相关研究
    最近的相关研究包括:1. WaveNet: A Generative Model for Raw Audio (Oord et al., 2016);2. Tacotron 2: Generating Human-like Speech from Text (Shen et al., 2018);3. Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning (Ping et al., 2018)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论