Sidon: Fast and Robust Open-Source Multilingual Speech Restoration for Large-scale Dataset Cleansing

向作者提问

NEW

简介

大规模的文本到语音（TTS）系统受限于高质量、多语言录音数据的稀缺。我们推出了Sidon，一种快速且开源的语音修复模型，可将野外采集的嘈杂语音转换为录音室质量的语音，并支持数十种语言。Sidon包含两个模型：一是经过微调的w2v-BERT 2.0特征预测器，用于从噪声语音中净化声学特征；二是声码器，用于根据净化后的特征合成修复后的语音。Sidon在语音修复性能上可与Google内部用于语音合成数据集清洗的Miipher模型相媲美。此外，Sidon在计算效率方面表现优异，在单块GPU上运行速度最高可达实时速度的3,390倍。我们进一步证明，使用经Sidon清理过的自动语音识别语料库训练TTS模型，可在零样本条件下提升合成语音的质量。为促进研究社区实现可复现的数据集清洗，我们已公开发布代码和模型。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

大规模文本到语音（TTS）系统受限于高质量、多语言语音数据的稀缺，尤其是在真实环境中采集的语音常包含噪声，影响合成语音质量。如何高效地将野外采集的低质语音恢复为 studio-quality 语音，以支持多语言 TTS 数据集构建，是一个关键挑战。这是一个实际且日益重要的问题，尤其在推动开放、可复现的语音研究方面。
关键思路

Sidon 提出一个两阶段语音恢复框架：首先使用微调后的 w2v-BERT 2.0 模型作为特征预测器，从带噪语音中提取并净化语音特征；然后通过一个专门训练的声码器将净化后的特征合成为高质量语音。该方法无需成对的干净-噪声数据进行监督训练，具备跨语言泛化能力，实现了高质量语音恢复与高推理效率的结合。其思路新颖之处在于将自监督语音表示学习（w2v-BERT 2.0）有效迁移至语音恢复任务，并实现极高的实时性。
其它亮点

Sidon 在恢复质量上可媲美 Google 内部模型 Miipher，同时单 GPU 上推理速度高达实时的 3,390 倍；使用 Sidon 清洗 ASR 语料库后训练的 TTS 模型，在零样本语音合成任务中表现出音质提升；模型和代码已开源，支持数十种语言，极大促进可复现的语音数据集清洗研究；实验设计验证了清洗后数据对下游 TTS 任务的增益，具有实际应用价值。
相关研究

近期相关研究包括：《Miipher: Speaker-Invariant Speech Restoration for Dataset Cleaning in Text-to-Speech》（Google, 2023）提出用于 TTS 数据清洗的语音恢复方法；《SpeechBrain: A General-Purpose Speech Processing Toolkit》（Lecocq et al., 2021）提供开源语音处理框架；《FastSpeech 2: Fast and High-Quality End-to-End Text to Speech》（Ren et al., 2021）强调高质量训练数据的重要性；以及《WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing》（Chen et al., 2022）展示了自监督模型在语音修复等任务中的潜力。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问