FireRedChat: A Pluggable, Full-Duplex Voice Interaction System with Cascaded and Semi-Cascaded Implementations

向作者提问

NEW

简介

全双工语音交互允许用户和智能体同时讲话，并具备可控制的插入对话功能，从而实现更接近真人助理和客服体验的交互方式。现有的解决方案要么是端到端系统，设计复杂且控制难度大；要么是模块化流水线，通过轮转控制器来协调，便于模块单独升级和优化。然而，以往的模块化框架依赖非开源组件和外部服务商，限制了整体优化的可能性。在本研究中，我们提出了一套完整且实用的全双工语音交互系统，包括一个轮转控制器、一个交互模块以及一个对话管理器。该控制器集成了流式个性化语音活动检测（pVAD），可抑制来自噪声和非主要说话人的错误插入，精准标记主要说话人的语音片段，并明确支持主要说话人的插话行为；同时，语义上的轮转结束检测器提升了轮转结束判断的准确性。该系统能够将多种半双工模块化流水线（包括级联式、半级联式和语音到语音式）升级为全双工模式。借助内部模型，我们实现了级联式和半级联式两种变体，其中半级联式能够捕捉情感和副语言线索，从而生成更连贯的回应，降低延迟和错误传播，提升系统鲁棒性。对话管理器则通过工具调用和上下文管理扩展了系统的功能。此外，我们提出了三项系统级评估指标：插话能力、轮转结束检测准确率和端到端延迟，用以评估交互的自然度、控制准确性和效率。实验结果表明，我们的系统在减少错误打断、提高语义结束判断准确性和降低延迟方面表现优异，接近工业级系统水平，从而实现了稳定、自然、实时的全双工交互体验。演示地址：https://fireredteam.github.io/demos/firered_chat。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

这篇论文旨在解决全双工语音交互系统中的一些关键问题，包括虚假打断（false barge-ins）、语义性转场检测（end-of-turn detection）、模块化系统与端到端系统的权衡，以及系统整体优化受限于非开源组件和外部服务的问题。这是一个相对较新的研究方向，特别是在构建可控、模块化、低延迟、高自然度的语音交互系统方面。
关键思路

论文提出了一种完整的、实用的全双工语音交互系统架构，包括一个基于流式个性化语音活动检测（pVAD）和语义性转场检测的转场控制器、一个交互模块和一个对话管理器。其关键创新在于：1）结合个性化VAD和语义结束检测来提升转场控制的准确性；2）提出半级联式（semi-cascaded）架构，融合情感与副语言信息，降低错误传播并提升响应连贯性；3）模块化设计支持灵活升级和整体优化，减少对外部组件的依赖。
其它亮点

1. 提出半级联式语音交互架构，提升响应连贯性和系统鲁棒性 2. 设计了三个系统级评估指标：打断行为（barge-in）、转场检测准确率、端到端延迟 3. 实验验证了系统在减少虚假打断、提升语义转场准确率和降低延迟方面的有效性 4. 系统实现基于内部模型，不依赖外部API，具有更高的可优化性和部署灵活性 5. 论文展示了实际演示，但未明确提及开源代码或公开数据集
相关研究

1. End-to-End Neural Speaker Diarization (Zhong et al., 2018) 2. A Comparative Study of End-to-End and Pipeline-based Spoken Dialogue Systems (Lee et al., 2020) 3. Real-Time Full-Duplex Conversational AI with Neural Audio Processing (Zhang et al., 2022) 4. Context-Aware Turn-Taking Prediction in Conversational Systems (Chen et al., 2021) 5. Modular and End-to-End Approaches for Spoken Language Understanding (Gupta et al., 2019)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问