Sidon: Fast and Robust Open-Source Multilingual Speech Restoration for Large-scale Dataset Cleansing

2025年09月21日
  • 简介
    大规模的文本到语音(TTS)系统受限于高质量、多语言录音数据的稀缺。我们推出了Sidon,一种快速且开源的语音修复模型,可将野外采集的嘈杂语音转换为录音室质量的语音,并支持数十种语言。Sidon包含两个模型:一是经过微调的w2v-BERT 2.0特征预测器,用于从噪声语音中净化声学特征;二是声码器,用于根据净化后的特征合成修复后的语音。Sidon在语音修复性能上可与Google内部用于语音合成数据集清洗的Miipher模型相媲美。此外,Sidon在计算效率方面表现优异,在单块GPU上运行速度最高可达实时速度的3,390倍。我们进一步证明,使用经Sidon清理过的自动语音识别语料库训练TTS模型,可在零样本条件下提升合成语音的质量。为促进研究社区实现可复现的数据集清洗,我们已公开发布代码和模型。
  • 作者讲解
  • 图表
  • 解决问题
    大规模文本到语音(TTS)系统受限于高质量、多语言语音数据的稀缺,尤其是在真实环境中采集的语音常包含噪声,影响合成语音质量。如何高效地将野外采集的低质语音恢复为 studio-quality 语音,以支持多语言 TTS 数据集构建,是一个关键挑战。这是一个实际且日益重要的问题,尤其在推动开放、可复现的语音研究方面。
  • 关键思路
    Sidon 提出一个两阶段语音恢复框架:首先使用微调后的 w2v-BERT 2.0 模型作为特征预测器,从带噪语音中提取并净化语音特征;然后通过一个专门训练的声码器将净化后的特征合成为高质量语音。该方法无需成对的干净-噪声数据进行监督训练,具备跨语言泛化能力,实现了高质量语音恢复与高推理效率的结合。其思路新颖之处在于将自监督语音表示学习(w2v-BERT 2.0)有效迁移至语音恢复任务,并实现极高的实时性。
  • 其它亮点
    Sidon 在恢复质量上可媲美 Google 内部模型 Miipher,同时单 GPU 上推理速度高达实时的 3,390 倍;使用 Sidon 清洗 ASR 语料库后训练的 TTS 模型,在零样本语音合成任务中表现出音质提升;模型和代码已开源,支持数十种语言,极大促进可复现的语音数据集清洗研究;实验设计验证了清洗后数据对下游 TTS 任务的增益,具有实际应用价值。
  • 相关研究
    近期相关研究包括:《Miipher: Speaker-Invariant Speech Restoration for Dataset Cleaning in Text-to-Speech》(Google, 2023)提出用于 TTS 数据清洗的语音恢复方法;《SpeechBrain: A General-Purpose Speech Processing Toolkit》(Lecocq et al., 2021)提供开源语音处理框架;《FastSpeech 2: Fast and High-Quality End-to-End Text to Speech》(Ren et al., 2021)强调高质量训练数据的重要性;以及《WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing》(Chen et al., 2022)展示了自监督模型在语音修复等任务中的潜力。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问