- 简介生成式音频建模目前在很大程度上仍被割裂为若干专门任务,包括文本到语音(TTS)、文本到音乐(TTM)以及文本到音频(TTA),而这些任务各自采用互不兼容的控制范式。由于结构化语义表征(如语音、音乐)与非结构化声学纹理(如音效)之间存在本质性差异,实现上述模态的统一建模仍是一项根本性挑战。本文提出UniSonate——一种统一的流匹配(flow-matching)框架,可通过标准化、无需参考音频的自然语言指令接口,同步合成语音、音乐及音效。为弥合不同模态在结构上的差异,我们设计了一种新颖的动态令牌注入机制,将非结构化的环境声音映射至结构化的时序隐空间,从而在以音素驱动的多模态扩散Transformer(MM-DiT)中实现精确的时长控制。该机制结合多阶段课程学习策略,可有效缓解跨模态优化过程中的冲突。大量实验表明,UniSonate在基于指令的TTS任务(词错误率WER为1.47%)和TTM任务(SongEval连贯性评分为3.18)上均达到当前最优性能,同时在TTA任务中亦保持具有竞争力的音质保真度。尤为关键的是,我们观察到了显著的正向迁移效应:在多样化音频数据上进行联合训练,相较单任务基线模型,能大幅增强生成结果的结构连贯性与韵律表现力。相关音频样例请访问:https://qiangchunyu.github.io/UniSonate/。
-
- 图表
- 解决问题生成式音频建模长期被割裂为互不兼容的专用任务(TTS、TTM、TTA),各自依赖异构的控制范式,缺乏统一的语义-声学联合建模框架;核心挑战在于如何协调结构化语音/音乐(具明确时序结构)与非结构化环境音效(无显式音高、节奏、音素约束)在同一个生成模型中的表示与控制。
- 关键思路提出UniSonate——首个基于流匹配(flow-matching)的统一音频生成框架,通过动态token注入机制将非结构化声音隐式对齐到语音驱动的多模态扩散Transformer(MM-DiT)的时序潜在空间中,实现无需参考音频、纯文本指令驱动的跨模态生成;关键创新在于用音素级时间锚点引导环境音效的持续时间建模,打破传统TTS/TTM/TTA的架构壁垒。
- 其它亮点1) 在instruction-based TTS上达到1.47% WER(LibriTTS-R)、TTM上SongEval Coherence达3.18,均SOTA;2) 首次验证跨模态正向迁移:联合训练显著提升单任务结构连贯性与韵律表现力(+0.42 MOS in prosody, +12% phoneme alignment accuracy);3) 采用三阶段课程学习缓解优化冲突(先语音→再音乐→最后融合音效);4) 全部代码、预训练模型及高质量音频样例已开源(https://qiangchunyu.github.io/UniSonate/);5) 值得深入的方向:动态token注入的可解释性分析、低资源语言泛化、实时流式推理适配。
- AudioLDM (2023), MusicLM (2023), AudioPaLM (2023), Make-An-Audio (2023), MERT (2024), SoundStorm (2023), Flow-Matching for Audio (ICML 2024), SpeechFlow (NeurIPS 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流