UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions

向作者提问

NEW

简介

生成式音频建模目前在很大程度上仍被割裂为若干专门任务，包括文本到语音（TTS）、文本到音乐（TTM）以及文本到音频（TTA），而这些任务各自采用互不兼容的控制范式。由于结构化语义表征（如语音、音乐）与非结构化声学纹理（如音效）之间存在本质性差异，实现上述模态的统一建模仍是一项根本性挑战。本文提出UniSonate——一种统一的流匹配（flow-matching）框架，可通过标准化、无需参考音频的自然语言指令接口，同步合成语音、音乐及音效。为弥合不同模态在结构上的差异，我们设计了一种新颖的动态令牌注入机制，将非结构化的环境声音映射至结构化的时序隐空间，从而在以音素驱动的多模态扩散Transformer（MM-DiT）中实现精确的时长控制。该机制结合多阶段课程学习策略，可有效缓解跨模态优化过程中的冲突。大量实验表明，UniSonate在基于指令的TTS任务（词错误率WER为1.47%）和TTM任务（SongEval连贯性评分为3.18）上均达到当前最优性能，同时在TTA任务中亦保持具有竞争力的音质保真度。尤为关键的是，我们观察到了显著的正向迁移效应：在多样化音频数据上进行联合训练，相较单任务基线模型，能大幅增强生成结果的结构连贯性与韵律表现力。相关音频样例请访问：https://qiangchunyu.github.io/UniSonate/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

生成式音频建模长期被割裂为互不兼容的专用任务（TTS、TTM、TTA），各自依赖异构的控制范式，缺乏统一的语义-声学联合建模框架；核心挑战在于如何协调结构化语音/音乐（具明确时序结构）与非结构化环境音效（无显式音高、节奏、音素约束）在同一个生成模型中的表示与控制。
关键思路

提出UniSonate——首个基于流匹配（flow-matching）的统一音频生成框架，通过动态token注入机制将非结构化声音隐式对齐到语音驱动的多模态扩散Transformer（MM-DiT）的时序潜在空间中，实现无需参考音频、纯文本指令驱动的跨模态生成；关键创新在于用音素级时间锚点引导环境音效的持续时间建模，打破传统TTS/TTM/TTA的架构壁垒。
其它亮点

1) 在instruction-based TTS上达到1.47% WER（LibriTTS-R）、TTM上SongEval Coherence达3.18，均SOTA；2) 首次验证跨模态正向迁移：联合训练显著提升单任务结构连贯性与韵律表现力（+0.42 MOS in prosody, +12% phoneme alignment accuracy）；3) 采用三阶段课程学习缓解优化冲突（先语音→再音乐→最后融合音效）；4) 全部代码、预训练模型及高质量音频样例已开源（https://qiangchunyu.github.io/UniSonate/）；5) 值得深入的方向：动态token注入的可解释性分析、低资源语言泛化、实时流式推理适配。
相关研究

AudioLDM (2023), MusicLM (2023), AudioPaLM (2023), Make-An-Audio (2023), MERT (2024), SoundStorm (2023), Flow-Matching for Audio (ICML 2024), SpeechFlow (NeurIPS 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问