SAC: Neural Speech Codec with Semantic-Acoustic Dual-Stream Quantization

2025年10月19日
  • 简介
    将连续语音信号转换为离散标记的语音编解码器已成为语音语言模型的关键组成部分。然而,现有的编解码器在实现高质量重建与富含语义的表示之间难以兼顾,从而限制了其在生成和理解任务中的有效性。本文提出SAC,一种具有语义-声学双流量化机制的神经语音编解码器。通过将语义建模与声学建模分离至两个独立的处理流,SAC使每个流均可针对其特定功能进行优化。全面评估表明,SAC在不同码率下,无论是在干净还是噪声环境中,均展现出优异的重建性能,在UTMOS和WER指标上得分尤其突出,体现出更高的自然度和可懂度。此外,SAC在语义表征能力方面显著超越以往编解码器,已接近连续自监督嵌入的水平。当作为基于大语言模型的文本到语音系统的分词器时,SAC支持构建单阶段自回归(AR)TTS模型,其性能明显优于当前最先进的自回归系统。我们进一步开展了解耦分析,验证了双流架构设计的有效性,为可控语音生成提供了新的可能性。
  • 作者讲解
  • 图表
  • 解决问题
    现有的语音编解码器在高质量重建和语义丰富表示之间难以取得平衡,限制了其在生成式和理解类语音任务中的表现。该问题在当前语音语言模型快速发展的背景下尤为重要,但尚未被充分解决。
  • 关键思路
    提出SAC,一种具有语义-声学双流量化结构的神经语音编解码器,通过将语义建模与声学建模解耦到两个独立流中,使各自可针对其特定目标进行优化,从而同时提升语音自然度、可懂度和语义表达能力。
  • 其它亮点
    在多种比特率和噪声条件下,SAC均展现出优异的重建性能,尤其在UTMOS和WER指标上表现突出,说明其生成语音更自然且更易识别。语义表示能力接近连续自监督嵌入水平,显著优于以往编解码器。作为LLM-based TTS的分词器时,实现单阶段自回归TTS即超越现有先进AR系统。消融实验验证了双流设计的有效性,为可控语音生成提供了新路径。论文未明确提及是否开源代码。
  • 相关研究
    1. HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units 2. wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations 3. SoundStream: An End-to-End Neural Audio Codec 4. EnCodec: Lightweight Speech Codec for High-Quality Speech Compression 5. vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问