DiarizationLM: Speaker Diarization Post-Processing with Large Language Models

2024年01月07日
  • 简介
    本文介绍了DiarizationLM,这是一个利用大型语言模型(LLM)来后处理说话人分离系统输出的框架。该框架可以实现多种目标,例如提高分离转录的可读性或降低单词分离误差率(WDER)。在该框架中,自动语音识别(ASR)和说话人分离系统的输出被表示为一种紧凑的文本格式,该格式包含在可选微调的LLM的提示中。LLM的输出可以用作具有所需增强的精细化分离结果。作为后处理步骤,该框架可以轻松应用于任何现成的ASR和说话人分离系统,而无需重新训练现有组件。我们的实验表明,微调后的PaLM 2-S模型可以在Fisher电话对话数据集上将WDER降低25.9%,在Callhome英语数据集上降低31%。
  • 图表
  • 解决问题
    本文介绍了DiarizationLM框架,旨在利用大型语言模型(LLM)对说话人分离系统的输出进行后处理。该框架可以实现多种目标,如提高对话文本的可读性或减少单词分离误差率(WDER)。
  • 关键思路
    该框架将自动语音识别(ASR)和说话人分离系统的输出表示为一种紧凑的文本格式,并将其包含在可选微调的LLM提示中。LLM的输出可以用作所需增强的精细化分离结果。作为后处理步骤,该框架可以轻松应用于任何现成的ASR和说话人分离系统而无需重新训练现有组件。
  • 其它亮点
    在Fisher电话对话数据集上,经过微调的PaLM 2-S模型可以将WDER相对降低25.9%,在Callhome英语数据集上可以相对降低31%。该论文的实验设计合理,使用了公开数据集,并提供了开源代码。
  • 相关研究
    最近的相关研究包括使用深度学习模型进行说话人分离的研究,如《Deep Speaker Embeddings for Diarization》和《End-to-End Text-Independent Speaker Verification with Triplet Loss on Short Utterances》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论