Habibi: Laying the Open-Source Foundation of Unified-Dialectal Arabic Speech Synthesis

向作者提问

NEW

简介

目前，阿拉伯语方言的语音合成研究与开发仍存在显著空白，尤其在统一建模视角下尤为突出。尽管该方向具有极高的实际应用价值，但阿拉伯语方言固有的语言复杂性，加之缺乏标准化的数据集、基准测试体系及评估规范，致使研究人员往往倾向于选择更稳妥的研究路径。为弥合这一鸿沟，我们推出了“哈比比”（Habibi）——一套专门设计且具备统一架构的文本到语音（TTS）模型。该模型充分利用现有的开源自动语音识别（ASR）语料库，借助语言学驱动的课程学习策略，有效支持从高资源到低资源的多种阿拉伯语方言。实验结果表明，我们的方法在语音生成质量上超越了当前领先的商业语音合成服务；同时，该模型无需对输入文本进行变音符号（diacritization）标注，即可通过高效的上下文内学习（in-context learning）保持良好的可扩展性。我们承诺将模型完全开源，并构建首个面向多方言阿拉伯语语音合成的系统性基准测试集。此外，我们还深入剖析了该领域面临的核心挑战，确立了科学、可复现的评估标准，旨在为后续研究奠定坚实基础。相关资源详见：https://SWivid.github.io/Habibi/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

阿拉伯方言语音合成（TTS）缺乏统一建模框架，受限于方言语言复杂性、标注数据稀缺、无标准化基准与评估协议，导致研究滞后于实际需求。
关键思路

提出Habibi——一套基于现有开源ASR语料、采用语言学引导的课程学习（linguistically-informed curriculum learning）构建的统一多方言TTS模型体系；无需文本加注（diacritization），支持高低资源阿拉伯方言，并通过上下文学习（in-context learning）实现零样本/少样本适配。
其它亮点

在生成质量上超越领先商业TTS服务（如Google Cloud Text-to-Speech）；首次构建系统性多方言阿拉伯TTS基准（含语音自然度、方言保真度、可懂度等维度）；完全开源模型、训练代码、评估工具及基准数据集；实验覆盖MSA、Egyptian、Levantine、Gulf、Maghrebi等5+主流方言；数据源自Common Voice、AISHELL-4 Arabic subset等公开ASR语料，经方言对齐与音素规范化处理；未来方向包括跨方言迁移鲁棒性、低延迟流式合成、社会语言学一致性建模。
相关研究

ArabicTTS (INTERSPEECH 2021); Dialectal Arabic TTS via Transfer Learning (ACL 2022); MADAR-TTS: A Multi-Dialectal Arabic Speech Synthesis Corpus (LREC 2023); MADA: Multilingual and Dialectal Arabic ASR/TTS Benchmark (IEEE SLT 2023); Alif: End-to-End Dialect-Aware Arabic TTS (EMNLP 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问