Habibi: Laying the Open-Source Foundation of Unified-Dialectal Arabic Speech Synthesis

2026年01月20日
  • 简介
    目前,阿拉伯语方言的语音合成研究与开发仍存在显著空白,尤其在统一建模视角下尤为突出。尽管该方向具有极高的实际应用价值,但阿拉伯语方言固有的语言复杂性,加之缺乏标准化的数据集、基准测试体系及评估规范,致使研究人员往往倾向于选择更稳妥的研究路径。为弥合这一鸿沟,我们推出了“哈比比”(Habibi)——一套专门设计且具备统一架构的文本到语音(TTS)模型。该模型充分利用现有的开源自动语音识别(ASR)语料库,借助语言学驱动的课程学习策略,有效支持从高资源到低资源的多种阿拉伯语方言。实验结果表明,我们的方法在语音生成质量上超越了当前领先的商业语音合成服务;同时,该模型无需对输入文本进行变音符号(diacritization)标注,即可通过高效的上下文内学习(in-context learning)保持良好的可扩展性。我们承诺将模型完全开源,并构建首个面向多方言阿拉伯语语音合成的系统性基准测试集。此外,我们还深入剖析了该领域面临的核心挑战,确立了科学、可复现的评估标准,旨在为后续研究奠定坚实基础。相关资源详见:https://SWivid.github.io/Habibi/。
  • 作者讲解
  • 图表
  • 解决问题
    阿拉伯方言语音合成(TTS)缺乏统一建模框架,受限于方言语言复杂性、标注数据稀缺、无标准化基准与评估协议,导致研究滞后于实际需求。
  • 关键思路
    提出Habibi——一套基于现有开源ASR语料、采用语言学引导的课程学习(linguistically-informed curriculum learning)构建的统一多方言TTS模型体系;无需文本加注(diacritization),支持高低资源阿拉伯方言,并通过上下文学习(in-context learning)实现零样本/少样本适配。
  • 其它亮点
    在生成质量上超越领先商业TTS服务(如Google Cloud Text-to-Speech);首次构建系统性多方言阿拉伯TTS基准(含语音自然度、方言保真度、可懂度等维度);完全开源模型、训练代码、评估工具及基准数据集;实验覆盖MSA、Egyptian、Levantine、Gulf、Maghrebi等5+主流方言;数据源自Common Voice、AISHELL-4 Arabic subset等公开ASR语料,经方言对齐与音素规范化处理;未来方向包括跨方言迁移鲁棒性、低延迟流式合成、社会语言学一致性建模。
  • 相关研究
    ArabicTTS (INTERSPEECH 2021); Dialectal Arabic TTS via Transfer Learning (ACL 2022); MADAR-TTS: A Multi-Dialectal Arabic Speech Synthesis Corpus (LREC 2023); MADA: Multilingual and Dialectal Arabic ASR/TTS Benchmark (IEEE SLT 2023); Alif: End-to-End Dialect-Aware Arabic TTS (EMNLP 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问