- 简介说话人分离对于解释使用自动语音识别(ASR)工具转录的对话是必要的。尽管说话人分离方法有了显著的发展,但说话人分离准确性仍然是一个问题。在这里,我们研究了使用大型语言模型(LLMs)作为后处理步骤进行说话人分离校正的方法。LLMs使用Fisher语料库进行了微调,这是一个大型的转录对话数据集。测量了模型在一个保留数据集中提高说话人分离准确性的能力。我们报告了微调后的LLMs可以显著提高说话人分离准确性。然而,模型的性能受到使用相同ASR工具的转录所限制,限制了其泛化性。为了解决这个限制,我们开发了一个组合模型,通过结合三个分别使用不同ASR工具转录的微调模型的权重来实现。组合模型表现出比每个ASR特定模型更好的整体性能,表明可以实现一种通用且不受ASR影响的方法。我们希望通过公共API使这些模型可供第三方应用程序使用。
- 图表
- 解决问题本论文旨在解决语音转文本中的说话人分离问题,即speaker diarization的准确性问题。
- 关键思路使用大型语言模型(LLMs)来进行diarization纠正。通过使用Fisher语料库进行微调,LLMs可以显著提高diarization的准确性。同时,通过组合不同ASR工具训练的模型,可以实现更好的性能。
- 其它亮点论文使用Fisher语料库进行微调,通过实验验证了LLMs的有效性。同时,通过组合不同ASR工具训练的模型,可以实现更好的性能。研究还计划通过API使这些模型对第三方应用程序可用。
- 最近的相关研究包括:1)Zhang等人的“基于深度聚类的说话人分离”;2)Garcia-Romero等人的“基于i-vectors和深度学习的说话人分离”。
沙发等你来抢
去评论
评论
沙发等你来抢