Speakers Unembedded: Embedding-free Approach to Long-form Neural Diarization

2024年06月26日
  • 简介
    本文介绍了一种新的框架,可以在长时间音频中同时使用本地的和全局的EEND来进行语音说话人分离,而无需额外的说话人嵌入框架。相比于传统的一次性EEND方法,这种方法在Callhome美式英语和RT03-CTS数据集上分别实现了相对DER降低13%和10%的显著改进。此外,这种方法还在不需要额外的说话人嵌入框架的情况下,略微改善了EEND-vector-clustering方法。作者还讨论了该方法的计算复杂度,并探索了降低处理时间的策略。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决端到端神经分割(EEND)模型在长音频中的扩展问题,尤其是在具有大量说话者的情况下。
  • 关键思路
    本文提出了一种新的框架,将EEND模型应用于长音频的本地和全局分割,无需单独的说话者嵌入,从而实现了更好的说话者分割效果。
  • 其它亮点
    该方法在Callhome American English和RT03-CTS数据集上相对DER降低了13%和10%,并且相比于EEND-vector-clustering,无需额外的说话者嵌入。本文还探讨了该框架的计算复杂性,并探索了减少处理时间的策略。
  • 相关研究
    近期在这个领域中的相关研究包括:'Speaker Diarization with LSTM','Deep Speaker Embeddings for Diarization','End-to-End Neural Speaker Diarization with Self-Attention'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问