- 简介全双工语音语言模型(FD-SLMs)是一类专门设计的基础模型,旨在通过建模复杂的对话动态(如打断、反馈语和语音重叠),实现自然、实时的口语交互。端到端(e2e)FD-SLMs 利用真实世界双通道对话数据,捕捉细致的双人对话模式,以实现类人交互。然而,它们面临一个关键挑战:由于语音序列较长以及高质量口语对话数据有限,其对话能力往往不如纯文本对话模型。虽然文本引导的语音生成可以在一定程度上缓解这些问题,但在将文本引导信息融合进双通道音频流时,存在时机和长度控制方面的难题,从而破坏自然交互所必需的精确时间对齐。为应对这些挑战,我们提出了一种受对话规划启发的新方法——TurnGuide。该方法通过模仿人类对话前的规划过程,在语音输出前将助手语音动态地划分为对话轮次,并生成轮次级别的文本引导,从而有效解决插入时机与长度控制的难题。大量实验表明,我们的方法显著提升了端到端 FD-SLMs 的对话能力,使其在保持自然对话节奏的同时,能够生成语义丰富且连贯的语音。演示视频请访问 https://dreamtheater123.github.io/TurnGuide-Demo/,代码将开放在 https://github.com/dreamtheater123/TurnGuide。
-
- 图表
- 解决问题论文试图解决全双工语音语言模型(FD-SLMs)在真实、实时对话场景中表现下降的问题,主要由于语音序列较长和高质量语音对话数据有限,导致其对话能力不如纯文本对话模型。这是一个在语音交互系统中亟需解决的新问题,尤其是在追求自然、流畅人机对话的背景下。
- 关键思路论文提出了一种名为TurnGuide的新方法,受人类对话规划机制启发,通过将助手语音动态划分为对话回合,并在生成语音前先生成回合级别的文本引导,从而解决语音生成中的插入时机和长度控制问题。这一思路将文本引导与语音生成解耦,并引入对话回合的结构化建模,相比现有方法更符合自然对话的时间对齐需求。
- 其它亮点1. TurnGuide通过对话回合级别的文本规划,有效解决了语音生成中的时间对齐问题 2. 实验结果显示该方法显著提升了端到端FD-SLMs的对话能力,包括语义连贯性和对话流畅性 3. 论文提供了演示视频和即将开源的代码,增强了方法的可复现性和社区影响力 4. 该方法为语音语言模型中的文本-语音协同生成提供了新的建模视角
- 1. DialogueLM: Learning to Generate Long Dialogue with Topic-Informed Latent Plans (ICLR 2023) 2. Simulating Human-Like Conversational Behaviors in Spoken Dialogue Systems (ACL 2022) 3. End-to-End Neural Dialogue Systems: A Survey (IEEE TAC 2021) 4. Modeling Overlapping Speech in End-to-End Conversational Speech Recognition (Interspeech 2023) 5. Plan-and-Generate: A Planning-Inspired Framework for Text-to-Speech Dialogue Generation (EMNLP 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流