Papez: Resource-Efficient Speech Separation with Auditory Working Memory

简介

Transformer-based模型最近达到了单通道语音分离的最先进准确度；然而，它们极高的计算负荷使得在资源受限的移动或物联网设备中难以部署。因此，我们提出了Papez，一种轻量级和计算效率高的单通道语音分离模型。Papez基于三个关键技术。我们首先用小型听觉工作记忆替换了跨块Transformer。其次，我们自适应地修剪不需要进一步处理的输入标记。最后，我们通过循环Transformer减少了参数数量。我们广泛的评估表明，Papez在资源和准确性的权衡方面取得了最佳的效果。我们在\texttt{https://github.com/snuhcs/Papez}公开分享我们的源代码。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决单通道语音分离模型在移动或物联网设备上的计算负担问题，提出一种轻量级和高效的模型Papez。
关键思路

Papez模型的关键思路包括：使用小型听觉工作记忆替换Inter-chunk Transformer、自适应地修剪不需要进一步处理的输入令牌、通过循环Transformer减少参数数量。
其它亮点

论文通过实验评估表明，Papez模型在资源和准确性的权衡方面取得了最佳效果，同时开源了其代码。
相关研究

最近的相关研究包括使用深度学习技术进行语音分离的研究，如基于深度神经网络的语音分离模型。