DiarizationLM: Speaker Diarization Post-Processing with Large Language Models

2024年01月07日
  • 简介
    本文介绍了DiarizationLM框架,该框架利用大型语言模型(LLM)对演讲者分离系统的输出进行后处理。该框架可以实现多种目标,例如提高分离转录的可读性或降低单词分离错误率(WDER)。在该框架中,自动语音识别(ASR)和演讲者分离系统的输出以紧凑的文本格式表示,并包含在可选微调的LLM的提示中。LLM的输出可以用作具有所需增强的经过精细化的分离结果。作为后处理步骤,该框架可以轻松应用于任何现成的ASR和演讲者分离系统,而无需重新训练现有组件。我们的实验表明,经过微调的PaLM 2-S模型可以将Fisher电话会话数据集上的WDER降低55.5%,Callhome英语数据集上的WDER降低44.9%。
  • 作者讲解
  • 图表
  • 解决问题
    本文介绍了DiarizationLM框架,旨在利用大型语言模型(LLM)对说话人分离系统的输出进行后处理。该框架可以实现多种目标,如提高分离转录的可读性或降低单词分离误差率(WDER)。
  • 关键思路
    该框架将自动语音识别(ASR)和说话人分离系统的输出表示为紧凑的文本格式,并将其包含在经过微调的LLM的提示中。LLM的输出可以用作所需增强的精细化分离结果。作为后处理步骤,该框架可以轻松应用于任何现成的ASR和说话人分离系统,而无需重新训练现有组件。
  • 其它亮点
    该框架可以显著降低WDER,PaLM 2-S模型在Fisher电话会话数据集上可以减少相对55.5%,在Callhome英语数据集上可以减少相对44.9%。实验结果表明,DiarizationLM框架在说话人分离领域中具有很高的应用价值。
  • 相关研究
    在这个领域中,最近还有一些相关的研究,如SpeakerBeam,Deep Speaker Embeddings等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问