- 简介在本文中,不同的在线说话人分离系统在相同的硬件和测试数据上被评估,评估指标为延迟时间,即从音频输入到相应说话人标签输出所需的时间。作为评估的一部分,比较了DIART框架内的各种模型组合,基于在线聚类算法UIS-RNN-SML的分离系统和端到端在线分离系统FS-EEND。使用嵌入模型pyannote/embedding和分割模型pyannote/segmentation的DIART流水线实现了最低的延迟时间。FS-EEND系统的延迟时间也很好。总的来说,目前没有发表的研究比较几种在线说话人分离系统的延迟时间,这使得本研究更具相关性。
- 图表
- 解决问题比较不同在线说话人分离系统的延迟,以解决在线语音识别中的实时性问题。
- 关键思路使用相同的测试数据和硬件比较了DIART框架内不同模型组合、UIS-RNN-SML算法和FS-EEND系统的在线说话人分离性能,找到了延迟最低的模型组合。
- 其它亮点实验中使用的是相同的测试数据和硬件,这使得结果更具可比性。DIART框架内的模型组合表现最佳,尤其是使用pyannote/embedding和pyannote/segmentation模型的DIART-pipeline。FS-EEND系统的延迟也表现良好。文中提到目前尚未有类似的研究比较不同在线说话人分离系统的延迟。
- 最近的相关研究包括:1. "Fully Online Diarization for Multi-Part Meetings";2. "Speaker Diarization with LSTM";3. "End-to-End Online Neural Diarization with Self-Attention"。
沙发等你来抢
去评论
评论
沙发等你来抢