- 简介阿拉伯语拥有超过30种口语方言,但目前尚无开源的文本转语音(TTS)系统能够统一支持全部方言。其主要障碍在于:各方言之间在词汇和音系层面存在显著差异;高质量、可用于语音合成的标注数据极为匮乏;同时,学界也缺乏一个标准化的多方言TTS评测基准。为此,我们提出了“哈比比”(Habibi)——一种面向阿拉伯语多方言的统一TTS框架,可系统性地应对上述三大挑战。我们设计了一套多阶段的数据整理流程,将开源的自动语音识别(ASR)语料库重新用于TTS训练,覆盖12种以上区域性方言。此外,我们采用一种基于语言学知识的课程学习策略:先以现代标准阿拉伯语(MSA)数据进行预训练,再逐步过渡至各方言数据,从而在无需对输入文本进行变音符号(diacritization)标注的前提下,实现鲁棒的零样本(zero-shot)语音合成。我们还首次公开发布了标准化的多方言阿拉伯语TTS评测基准,该基准涵盖7个方言子集、总计逾11,000条语音样本,并配有经人工校验的精确文本转录稿。在该基准上的实验结果表明,我们提出的统一模型在各项指标上均达到甚至超越了针对单一方言专门训练的专用模型。自动评测指标与人工主观评测结果均证实:“哈比比”在可懂度、说话人相似度及自然度三方面,均与ElevenLabs公司发布的Eleven v3(Alpha版)系统高度相当、极具竞争力。我们通过大量消融实验(累计耗用约8,000小时H100 GPU算力,测试30余种不同配置),全面验证了每一项关键技术设计的有效性。我们已将全部预训练模型权重(checkpoints)、训练与推理代码,以及评测基准数据集完全开源——这是阿拉伯语多方言TTS领域首个此类完整开源项目,相关资源请访问:https://SWivid.github.io/Habibi/。
-
- 图表
- 解决问题阿拉伯语存在30余种口语方言,但缺乏统一、开源的多方言文本转语音(TTS)系统;现有工作受限于方言间显著的词汇与音系差异、高质量合成数据极度稀缺,以及缺乏标准化的多方言TTS评测基准。
- 关键思路提出Habibi——首个统一建模12+阿拉伯方言的开源TTS框架:通过多阶段数据重利用流水线,将公开ASR语料转化为TTS训练数据;采用语言学驱动的课程学习策略(从现代标准阿拉伯语渐进过渡到方言),实现无需文本加符(diacritization)的鲁棒零样本方言合成。
- 其它亮点发布首个标准化多方言阿拉伯TTS基准(11,000+人工校验语句,覆盖7大方言子集);在该基准上,统一模型性能持平或超越单一方言专用模型;人类评估与自动指标均显示其在可懂度、说话人相似度和自然度上媲美商业闭源系统ElevenLabs Eleven v3 (alpha);完成约8,000 H100 GPU小时的消融实验(30+配置);全部模型检查点、训练/推理代码及基准数据集完全开源,为领域首例。
- ArabicSpeechCorpus (2021), MADAR Corpus (2018), QASR (2022), ArabTTS (2023), M4A-TTS (2024 preprint), and commercial systems like Google Cloud Text-to-Speech Arabic variants and Amazon Polly's Arabic voices
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流