- 简介本文介绍了一种新的框架,可以在长时间音频中同时使用本地的和全局的EEND来进行语音说话人分离,而无需额外的说话人嵌入框架。相比于传统的一次性EEND方法,这种方法在Callhome美式英语和RT03-CTS数据集上分别实现了相对DER降低13%和10%的显著改进。此外,这种方法还在不需要额外的说话人嵌入框架的情况下,略微改善了EEND-vector-clustering方法。作者还讨论了该方法的计算复杂度,并探索了降低处理时间的策略。
-
- 图表
- 解决问题本论文旨在解决端到端神经分割(EEND)模型在长音频中的扩展问题,尤其是在具有大量说话者的情况下。
- 关键思路本文提出了一种新的框架,将EEND模型应用于长音频的本地和全局分割,无需单独的说话者嵌入,从而实现了更好的说话者分割效果。
- 其它亮点该方法在Callhome American English和RT03-CTS数据集上相对DER降低了13%和10%,并且相比于EEND-vector-clustering,无需额外的说话者嵌入。本文还探讨了该框架的计算复杂性,并探索了减少处理时间的策略。
- 近期在这个领域中的相关研究包括:'Speaker Diarization with LSTM','Deep Speaker Embeddings for Diarization','End-to-End Neural Speaker Diarization with Self-Attention'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流