Towards Audio Codec-based Speech Separation

简介

最近神经音频编解码器（NAC）模型的改进引起了人们对采用预训练编解码器在各种语音处理应用中提高效率的兴趣，但这些模型还没有被应用于语音分离（SS）任务。SS可以从高压缩中受益，因为传统的SS模型所需的计算使它们在许多边缘计算用例中不切实际。然而，SS是一项波形掩蔽任务，压缩往往会引入严重影响性能的失真。在这里，我们提出了一项新的任务，即基于音频编解码器的SS，其中SS在NAC的嵌入空间内执行，并提出了一个新模型Codecformer来解决这个任务。在推理时，Codecformer在产生与Sepformer云部署相当的分离性能的同时，实现了52倍的MAC减少。这种方法为在实际场景中实现高效的SS开辟了一条新的方向。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文提出了一种新的任务：基于音频编解码器的语音分离，旨在解决传统语音分离模型计算量大、不适用于边缘计算的问题。
关键思路

论文提出了一种新模型Codecformer，可以在NAC的嵌入空间内执行语音分离任务，从而实现高压缩率和较好的分离性能。
其它亮点

Codecformer在推理时可以将MAC降低52倍，同时产生与Sepformer云端部署相当的分离性能。论文使用了两个数据集进行实验，同时开源了代码。该方法为实现高效语音分离提供了新思路。
相关研究

近期的研究主要关注于如何在边缘设备上实现高效的语音分离，例如使用神经网络压缩技术等。

Towards Audio Codec-based Speech Separation

提问交流

提问交流