Zero-Shot Multi-Lingual Speaker Verification in Clinical Trials

简介

由于临床试验涉及到大量的临床医生、患者和数据收集环境，因此收集高质量的数据是一个重大挑战。在临床试验中，通过评估患者的语音数据来检测和监测认知和心理健康障碍。我们建议使用这些语音记录来验证已注册患者的身份，并识别和排除试图在同一试验中多次注册的个人。由于临床研究通常在不同的国家进行，因此创建一个可以在不需要额外开发的情况下在不同语言中执行说话人验证的系统是必要的。我们通过招募和测试讲英语、德语、丹麦语、西班牙语和阿拉伯语的语音障碍患者来评估预先训练的TitaNet、ECAPA-TDNN和SpeakerNet模型。我们的结果表明，测试模型可以有效地推广到临床说话人，欧洲语言的错误率低于2.7％，阿拉伯语的错误率为8.26％。这是发展更多功能更强大、更高效的认知和心理健康临床试验说话人验证系统的重要一步，可以在广泛的语言和方言中使用，大大减少了为多种语言开发说话人验证系统所需的工作量。我们还评估了语音任务和参与试验的说话人数量对性能的影响，并展示了语音任务类型对模型性能的影响。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在多语言的临床试验中，使用语音数据进行身份验证和排除重复参与者的问题。
关键思路

使用预训练的TitaNet、ECAPA-TDNN和SpeakerNet模型进行说话人验证，并评估它们在多种语言中的泛化能力。论文还评估了语音任务和参与试验的说话者数量对模型性能的影响。
其它亮点

论文展示了测试模型在临床说话者中的有效性，欧洲语言的EER小于2.7％，阿拉伯语的EER为8.26％。这为开发更具通用性和高效性的说话人验证系统提供了重要的进展。实验使用了英语、德语、丹麦语、西班牙语和阿拉伯语的语音数据，并评估了模型的性能和影响因素。
相关研究

最近的相关研究包括：《Speaker Verification Using Deep Neural Networks with Very Small Training Data》、《Deep Speaker Embeddings for Diarization and Verification》等。

Zero-Shot Multi-Lingual Speaker Verification in Clinical Trials

提问交流

提问交流