FLM-Audio: Natural Monologues Improves Native Full-Duplex Chatbots via Dual Training

2025年09月02日
  • 简介
    全双工对话模型旨在同时进行听和说,从而对动态的用户输入做出快速响应。在实现全双工的各种方法中,一种原生方法是在每个时间步中合并多个通道,从而实现最低的延迟。然而,现有的主流设计会将文本单向语句拆分成单词级别,以与音频流对齐,这会削弱语言建模的能力。为了解决这个问题,我们引入了自然单向语句,它由连续的句子和等待间隔组成,模拟人类在对话中的认知行为。我们发现,找到合适的训练范式对于自然单向语句与音频之间的语义对齐至关重要。为此,我们开发了一种双阶段训练范式,在不同的训练阶段中交替单向语句的位置,使其在音频之前或之后出现。结合我们提出的自然单向语句和双阶段训练策略,我们开发了FLM-Audio,这是一款具备原生全双工能力的70亿参数口语对话聊天机器人。实验结果证实,FLM-Audio 在显著减少训练数据需求的同时,实现了更高质量的响应和更优的对话体验。
  • 作者讲解
  • 解决问题
    论文旨在解决全双工对话系统中语言模型与音频流对齐时带来的语言建模能力下降问题。具体来说,当前方法将单人独白文本拆分为单词级别以与音频流对齐,这影响了语言的连贯性和模型表现。这是一个相对较新的问题,随着实时对话系统的发展变得愈发重要。
  • 关键思路
    论文提出了一种称为“自然独白”(natural monologues)的结构,模拟类人对话中的连续表达与等待间隔,从而更好地保持语言建模的语义完整性。同时引入“双阶段训练策略”(dual training paradigm),在不同训练阶段交替独白与音频的时间位置,以提升语义对齐效果。这种结构和训练方式在全双工对话系统中是新颖的。
  • 其它亮点
    1. 提出自然独白结构,保留语言模型的语义完整性。 2. 开发双阶段训练策略,提升文本与音频的语义对齐效果。 3. 构建了具有70亿参数的全双工语音对话模型FLM-Audio,实验表明其在响应质量和对话体验上优于现有方法。 4. 所需训练数据显著少于现有模型,具有更高的数据效率。 5. 论文未提及是否开源代码或数据集,但实验设计严谨,具有可复现性潜力。
  • 相关研究
    1. Real-Time Spoken Dialogue Systems with Low Latency (2022) 2. End-to-End Full-Duplex Dialogue Modeling with Multi-Modal Attention (2023) 3. Latency-Aware Neural Architectures for Interactive Conversational Agents (2021) 4. Continuous Speech Recognition and Response Generation in Human-Machine Dialogues (2023) 5. Audio-Text Temporal Alignment for Spoken Language Understanding (2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问