The CHiME-8 DASR Challenge for Generalizable and Array Agnostic Distant Automatic Speech Recognition and Diarization

2024年07月23日
  • 简介
    本文介绍了CHiME-8 DASR挑战赛,该挑战赛延续了之前的CHiME-7 DASR(C7DASR)和CHiME-6挑战赛。它专注于使用一个或多个可能异构的设备进行联合多通道远程语音识别(DASR)和日程安排。主要目标是激发研究,以实现可以概括任意数量的发言人、不同的设置(正式与非正式的对话)、会议持续时间、各种声学场景和不同的录音配置的转录方法。与C7DASR相比,本文的创新之处包括:i)增加了NOTSOFAR-1,一个额外的办公室/公司会议场景,ii)手动校正了Mixer 6开发集,iii)增加了一项新的轨道,允许使用大型语言模型(LLM),iv)设置评审奖励机制,以鼓励参与者探索更实用和创新的解决方案。为了降低参与者的门槛,我们提供了一个独立的工具包,用于下载和准备这些数据集,以及执行文本规范化和评分。此外,今年我们还提供了两个基线系统,一个直接继承自C7DASR,基于ESPnet,另一个基于NeMo团队在去年C7DASR中的提交而开发的基于NeMo的系统。基线系统的结果表明,NOTSOFAR-1场景的添加显著增加了任务的难度,因为它的发言人数量很多,持续时间非常短。
  • 图表
  • 解决问题
    本论文旨在解决多通道远场语音识别(DASR)和说话人分离的问题,包括不同的场景、说话人数量和录音配置。
  • 关键思路
    论文提出了一种联合多通道DASR和说话人分离的方法,使用大语言模型(LLM)来提高性能。
  • 其它亮点
    本论文提供了一个独立的工具包,用于下载和准备数据集以及评分。此外,还提供了两个基线系统,其中一个使用ESPnet,另一个使用NeMo。实验结果表明,新增的NOTSOFAR-1场景使任务变得更加困难。
  • 相关研究
    最近的相关研究包括CHiME-7 DASR和CHiME-6挑战。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论