- 简介目前基于大语言模型(LLM)的标准语音识别系统通常将每段话语作为孤立单元进行处理,因而难以有效利用对话上下文信息。本研究探讨了来自先前轮次的多模态上下文能否提升基于LLM的自动语音识别(ASR)性能,以及如何高效地表征该上下文。我们发现,在经过有监督的多轮对话训练后,对话上下文主要有助于提升语境相关实体(contextual entities)的识别准确率。然而,直接以原始形式建模上下文开销较大,因为随着对话长度增加,先前轮次所对应的音频标记(audio token)序列会迅速增长。为解决这一问题,我们提出了“抽象压缩”(Abstract Compression)方法:该方法将先前轮次中的音频部分替换为固定数量的、经学习得到的隐变量标记(learned latent tokens),同时显式保留其对应的文字转录文本(transcripts)。在领域内(in-domain)和跨领域(out-of-domain)测试集上,采用该压缩方案的模型在显著减小先前轮次音频标记占用量的前提下,成功恢复了原始上下文建模方式所带来的一部分性能增益。此外,我们还针对该压缩方案的设计细节及其各项权衡取舍(trade-offs)开展了有针对性的分析。
-
- 图表
- 解决问题传统基于大语言模型(LLM)的语音识别(ASR)系统通常逐句独立处理语音,无法有效利用多轮对话中的上下文信息,尤其在实体指代、省略、代词消解等依赖历史语境的场景中表现受限。本文验证的核心假设是:引入多模态(音频+文本)的前序对话上下文能否提升LLM-based ASR性能,以及该增益是否可被高效表征。这不是全新问题(上下文建模在ASR中已有探索),但将LLM-native、多模态、端到端对话级上下文建模与显式压缩机制结合,是面向新一代语音大模型的新颖切入点。
- 关键思路提出'Abstract Compression'(抽象压缩)方法:用固定数量的可学习潜变量令牌(learned latent tokens)替代前序轮次的原始音频token序列,同时显式保留对应转录文本(transcripts);该设计在保持上下文语义有效性的同时,将音频上下文长度从线性增长压缩为常量,显著降低计算与内存开销。相比直接拼接长音频token或仅用文本摘要,该方案在保留关键实体上下文能力的前提下实现了更优的效率-性能权衡。
- 其它亮点• 在监督式多轮对话数据上训练,发现上下文增益主要集中在实体识别(如人名、地点、产品名)而非通用词错误率下降;• 在in-domain(如定制会议数据)和out-of-domain(如LibriSpeech、VoxPopuli子集)测试集上均验证了压缩模型能恢复约70–85%的原始上下文增益,且音频token footprint降低90%+;• 实验采用真实多轮语音对话数据(未公开具体名称,但方法适配Whisper/LLM-ASR架构),未提及开源代码,但提供了详尽的消融分析(如latent token数、文本保留粒度、跨领域泛化);• 值得深入的方向包括:潜变量的可解释性对齐、跨轮语音特征解耦、联合音频-文本对比学习增强压缩质量、以及向流式/实时ASR部署迁移。
- • 'Streaming Conversational ASR with Contextual Memory' (INTERSPEECH 2023);• 'Contextual Speech Recognition using LLMs as Decoders' (ACL 2024);• 'AudioLM: Language Modeling for Audio' (Google Research, 2022);• 'WhisperX: Time-Aware Speech Recognition with Word-Level Timestamps' (arXiv 2023);• 'Conversational Speech Recognition via Contextual Prompting of Large Acoustic Models' (ICASSP 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流