- 简介最近,端到端神经音频编解码器的进展使得可以在非常低的比特率下压缩音频,同时以高保真度重构输出音频。然而,这种改进往往以增加模型复杂度为代价。在本文中,我们确定并解决了现有神经音频编解码器存在的问题。我们发现,Wave-U-Net的性能并不随着网络深度的增加而一致提高。我们分析了这种现象的根本原因,并提出了一种方差约束设计。此外,我们揭示了以前波形域鉴别器中的各种失真,并提出了一种新的无失真鉴别器。由此产生的模型HILCodec是一种实时流媒体音频编解码器,展示了在各种比特率和音频类型下的最先进的质量。
-
- 图表
- 解决问题本论文旨在解决现有神经音频编解码器存在的问题,例如网络深度增加时性能不一致、波形域鉴别器存在各种失真等,并提出一种新的设计方案。
- 关键思路论文提出了一种基于方差约束设计的神经音频编解码器HILCodec,同时还提出了一种无失真的鉴别器,该编解码器在各种比特率和音频类型下展现出卓越的性能。
- 其它亮点论文的实验结果显示,HILCodec在各种比特率和音频类型下都表现出了最先进的质量,同时论文还提供了开源代码和使用的数据集。此外,论文的方案也为解决神经音频编解码器存在的问题提供了新思路。
- 最近的相关研究包括:1. End-to-End Neural Audio Coding with Temporal Adversarial Learning;2. A Universal Music Translation Network。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流