DiarizationLM: Speaker Diarization Post-Processing with Large Language Models

向作者提问

NEW

简介

本文介绍了DiarizationLM框架，该框架利用大型语言模型（LLM）对演讲者分离系统的输出进行后处理。该框架可以实现多种目标，例如提高分离转录的可读性或降低单词分离错误率（WDER）。在该框架中，自动语音识别（ASR）和演讲者分离系统的输出以紧凑的文本格式表示，并包含在可选微调的LLM的提示中。LLM的输出可以用作具有所需增强的经过精细化的分离结果。作为后处理步骤，该框架可以轻松应用于任何现成的ASR和演讲者分离系统，而无需重新训练现有组件。我们的实验表明，经过微调的PaLM 2-S模型可以将Fisher电话会话数据集上的WDER降低55.5％，Callhome英语数据集上的WDER降低44.9％。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文介绍了DiarizationLM框架，旨在利用大型语言模型（LLM）对说话人分离系统的输出进行后处理。该框架可以实现多种目标，如提高分离转录的可读性或降低单词分离误差率（WDER）。
关键思路

该框架将自动语音识别（ASR）和说话人分离系统的输出表示为紧凑的文本格式，并将其包含在经过微调的LLM的提示中。LLM的输出可以用作所需增强的精细化分离结果。作为后处理步骤，该框架可以轻松应用于任何现成的ASR和说话人分离系统，而无需重新训练现有组件。
其它亮点

该框架可以显著降低WDER，PaLM 2-S模型在Fisher电话会话数据集上可以减少相对55.5％，在Callhome英语数据集上可以减少相对44.9％。实验结果表明，DiarizationLM框架在说话人分离领域中具有很高的应用价值。
相关研究

在这个领域中，最近还有一些相关的研究，如SpeakerBeam，Deep Speaker Embeddings等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问