Think Before You Talk: Enhancing Meaningful Dialogue Generation in Full-Duplex Speech Language Models with Planning-Inspired Text Guidance

向作者提问

NEW

简介

全双工语音语言模型（FD-SLMs）是一类专门设计的基础模型，旨在通过建模复杂的对话动态（如打断、反馈语和语音重叠），实现自然、实时的口语交互。端到端（e2e）FD-SLMs 利用真实世界双通道对话数据，捕捉细致的双人对话模式，以实现类人交互。然而，它们面临一个关键挑战：由于语音序列较长以及高质量口语对话数据有限，其对话能力往往不如纯文本对话模型。虽然文本引导的语音生成可以在一定程度上缓解这些问题，但在将文本引导信息融合进双通道音频流时，存在时机和长度控制方面的难题，从而破坏自然交互所必需的精确时间对齐。为应对这些挑战，我们提出了一种受对话规划启发的新方法——TurnGuide。该方法通过模仿人类对话前的规划过程，在语音输出前将助手语音动态地划分为对话轮次，并生成轮次级别的文本引导，从而有效解决插入时机与长度控制的难题。大量实验表明，我们的方法显著提升了端到端 FD-SLMs 的对话能力，使其在保持自然对话节奏的同时，能够生成语义丰富且连贯的语音。演示视频请访问 https://dreamtheater123.github.io/TurnGuide-Demo/，代码将开放在 https://github.com/dreamtheater123/TurnGuide。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决全双工语音语言模型（FD-SLMs）在真实、实时对话场景中表现下降的问题，主要由于语音序列较长和高质量语音对话数据有限，导致其对话能力不如纯文本对话模型。这是一个在语音交互系统中亟需解决的新问题，尤其是在追求自然、流畅人机对话的背景下。
关键思路

论文提出了一种名为TurnGuide的新方法，受人类对话规划机制启发，通过将助手语音动态划分为对话回合，并在生成语音前先生成回合级别的文本引导，从而解决语音生成中的插入时机和长度控制问题。这一思路将文本引导与语音生成解耦，并引入对话回合的结构化建模，相比现有方法更符合自然对话的时间对齐需求。
其它亮点

1. TurnGuide通过对话回合级别的文本规划，有效解决了语音生成中的时间对齐问题 2. 实验结果显示该方法显著提升了端到端FD-SLMs的对话能力，包括语义连贯性和对话流畅性 3. 论文提供了演示视频和即将开源的代码，增强了方法的可复现性和社区影响力 4. 该方法为语音语言模型中的文本-语音协同生成提供了新的建模视角
相关研究

1. DialogueLM: Learning to Generate Long Dialogue with Topic-Informed Latent Plans (ICLR 2023) 2. Simulating Human-Like Conversational Behaviors in Spoken Dialogue Systems (ACL 2022) 3. End-to-End Neural Dialogue Systems: A Survey (IEEE TAC 2021) 4. Modeling Overlapping Speech in End-to-End Conversational Speech Recognition (Interspeech 2023) 5. Plan-and-Generate: A Planning-Inspired Framework for Text-to-Speech Dialogue Generation (EMNLP 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问