- 简介实时语音到语音(S2S)模型在生成自然、低延迟的对话响应方面表现出色,但往往缺乏深入的知识和语义理解能力。相比之下,将自动语音识别、基于文本的大语言模型(LLM)和文本转语音合成相结合的级联式系统虽然具备更强的知识表征能力,却因高延迟而破坏了自然交互的流畅性。本文提出一种新颖的混合架构,旨在弥合这两种范式之间的差距。我们的框架通过S2S变换器处理用户语音,实现即时响应,同时将查询并行传递给一个强大的后端大语言模型。随后,该大语言模型生成的文本回复被实时注入,用以引导S2S模型的语音生成过程,从而在不承受完整级联系统延迟代价的前提下,有效赋予其输出丰富的知识内容。我们采用MT-Bench基准的一个语音合成版本进行评估,该版本包含多轮问答对话场景。实验结果表明,与基线S2S模型相比,我们的系统在响应正确性方面显著提升,性能接近级联系统,同时保持了与基线相当的延迟水平。
-
- 图表
- 解决问题实时语音到语音(S2S)模型虽然具备低延迟和自然对话能力,但在知识深度和语义理解上表现不足;而基于级联架构(ASR + 文本大模型 + TTS)的系统虽具备强大知识处理能力,但高延迟破坏了对话流畅性。论文旨在解决如何在保持低延迟的同时提升S2S系统的知识理解和回答准确性问题。这是一个具有实际意义的新挑战,尤其在面向自然交互的语音助手应用中。
- 关键思路提出一种新型混合架构,在用户输入语音时并行运行两个路径:前端S2S Transformer实现即时响应,后端LLM进行深度语义理解与知识推理;随后将LLM生成的文本响应实时注入S2S模型以引导其语音输出,从而在不显著增加延迟的前提下融合大模型的知识优势。这种‘先响应、后精修’的协同机制是核心创新点。
- 其它亮点实验采用MT-Bench的语音合成版本进行多轮问答评估,更贴近真实对话场景;结果表明该方法在回答正确率上显著优于纯S2S基线,接近级联系统水平,同时延迟与S2S基线相当;该框架展示了高效利用LLM知识的潜力,且无需完全依赖高延迟流水线;代码是否开源未提及,但方法设计为模块化,适合进一步扩展至多语言或个性化场景;未来可探索更精细的注意力注入机制、动态延迟调度以及端到端训练策略。
- 1. PaLM-SL: Scaling Autoregressive Speech-Language Models to 10,000 Hours 2. SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Understanding and Generation 3. Voicebox: Text-Guided Multilingual Universal Speech Generation 4. Streaming End-to-End Speech Translation with Self-Attention 5. LLaMA-Omni: Efficient Streaming Language-Image-Audio Model for Multimodal Understanding and Generation
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流