- 简介本文介绍了DiarizationLM框架,该框架利用大型语言模型(LLM)对演讲者分离系统的输出进行后处理。该框架可以实现多种目标,例如提高分离转录的可读性或降低单词分离错误率(WDER)。在该框架中,自动语音识别(ASR)和演讲者分离系统的输出以紧凑的文本格式表示,并包含在可选微调的LLM的提示中。LLM的输出可以用作具有所需增强的经过精细化的分离结果。作为后处理步骤,该框架可以轻松应用于任何现成的ASR和演讲者分离系统,而无需重新训练现有组件。我们的实验表明,经过微调的PaLM 2-S模型可以将Fisher电话会话数据集上的WDER降低55.5%,Callhome英语数据集上的WDER降低44.9%。
-
- 图表
- 解决问题本文介绍了DiarizationLM框架,旨在利用大型语言模型(LLM)对说话人分离系统的输出进行后处理。该框架可以实现多种目标,如提高分离转录的可读性或降低单词分离误差率(WDER)。
- 关键思路该框架将自动语音识别(ASR)和说话人分离系统的输出表示为紧凑的文本格式,并将其包含在经过微调的LLM的提示中。LLM的输出可以用作所需增强的精细化分离结果。作为后处理步骤,该框架可以轻松应用于任何现成的ASR和说话人分离系统,而无需重新训练现有组件。
- 其它亮点该框架可以显著降低WDER,PaLM 2-S模型在Fisher电话会话数据集上可以减少相对55.5%,在Callhome英语数据集上可以减少相对44.9%。实验结果表明,DiarizationLM框架在说话人分离领域中具有很高的应用价值。
- 在这个领域中,最近还有一些相关的研究,如SpeakerBeam,Deep Speaker Embeddings等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流