- 简介全双工语音交互允许用户和智能体同时讲话,并具备可控制的插入对话功能,从而实现更接近真人助理和客服体验的交互方式。现有的解决方案要么是端到端系统,设计复杂且控制难度大;要么是模块化流水线,通过轮转控制器来协调,便于模块单独升级和优化。然而,以往的模块化框架依赖非开源组件和外部服务商,限制了整体优化的可能性。 在本研究中,我们提出了一套完整且实用的全双工语音交互系统,包括一个轮转控制器、一个交互模块以及一个对话管理器。该控制器集成了流式个性化语音活动检测(pVAD),可抑制来自噪声和非主要说话人的错误插入,精准标记主要说话人的语音片段,并明确支持主要说话人的插话行为;同时,语义上的轮转结束检测器提升了轮转结束判断的准确性。该系统能够将多种半双工模块化流水线(包括级联式、半级联式和语音到语音式)升级为全双工模式。 借助内部模型,我们实现了级联式和半级联式两种变体,其中半级联式能够捕捉情感和副语言线索,从而生成更连贯的回应,降低延迟和错误传播,提升系统鲁棒性。对话管理器则通过工具调用和上下文管理扩展了系统的功能。此外,我们提出了三项系统级评估指标:插话能力、轮转结束检测准确率和端到端延迟,用以评估交互的自然度、控制准确性和效率。 实验结果表明,我们的系统在减少错误打断、提高语义结束判断准确性和降低延迟方面表现优异,接近工业级系统水平,从而实现了稳定、自然、实时的全双工交互体验。演示地址:https://fireredteam.github.io/demos/firered_chat。
-
- 图表
- 解决问题这篇论文旨在解决全双工语音交互系统中的一些关键问题,包括虚假打断(false barge-ins)、语义性转场检测(end-of-turn detection)、模块化系统与端到端系统的权衡,以及系统整体优化受限于非开源组件和外部服务的问题。这是一个相对较新的研究方向,特别是在构建可控、模块化、低延迟、高自然度的语音交互系统方面。
- 关键思路论文提出了一种完整的、实用的全双工语音交互系统架构,包括一个基于流式个性化语音活动检测(pVAD)和语义性转场检测的转场控制器、一个交互模块和一个对话管理器。其关键创新在于:1)结合个性化VAD和语义结束检测来提升转场控制的准确性;2)提出半级联式(semi-cascaded)架构,融合情感与副语言信息,降低错误传播并提升响应连贯性;3)模块化设计支持灵活升级和整体优化,减少对外部组件的依赖。
- 其它亮点1. 提出半级联式语音交互架构,提升响应连贯性和系统鲁棒性 2. 设计了三个系统级评估指标:打断行为(barge-in)、转场检测准确率、端到端延迟 3. 实验验证了系统在减少虚假打断、提升语义转场准确率和降低延迟方面的有效性 4. 系统实现基于内部模型,不依赖外部API,具有更高的可优化性和部署灵活性 5. 论文展示了实际演示,但未明确提及开源代码或公开数据集
- 1. End-to-End Neural Speaker Diarization (Zhong et al., 2018) 2. A Comparative Study of End-to-End and Pipeline-based Spoken Dialogue Systems (Lee et al., 2020) 3. Real-Time Full-Duplex Conversational AI with Neural Audio Processing (Zhang et al., 2022) 4. Context-Aware Turn-Taking Prediction in Conversational Systems (Chen et al., 2021) 5. Modular and End-to-End Approaches for Spoken Language Understanding (Gupta et al., 2019)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流