- 简介我们介绍了Gull,一个生成式多功能音频编解码器。Gull是一个通用的神经音频压缩和解压缩模型,可应用于广泛的任务和应用,如实时通信、音频超分辨率和编解码器语言模型。Gull的关键组件包括:(1)通过受音频源分离进展的启发,采用子带建模方案进行通用采样率建模,(2)采用传统音频编解码器的增益-形状表示,(3)改进的残差矢量量化模块,以便更简单的训练,(4)弹性解码器网络,使用户在推理时能够定义模型大小和复杂度,(5)内置的音频超分辨率能力,无需增加比特率。我们将Gull与现有的传统和神经音频编解码器进行比较,并显示Gull能够在各种采样率、比特率和模型复杂度下实现同等或更好的性能,无论是主观还是客观的评估指标。
- 图表
- 解决问题Gull是一个多功能的生成音频编解码器,论文试图解决音频压缩和解压缩的问题,同时提供了实时通信、音频超分辨率和编解码器语言模型等应用。
- 关键思路Gull的关键思路包括:基于子带建模方案的通用采样率建模、基于传统音频编解码器的增益-形状表示、改进的残差向量量化模块、弹性解码器网络以及内置的音频超分辨率能力。相比现有的传统和神经音频编解码器,Gull在各种样本率、比特率和模型复杂度的主观和客观评估指标上均能达到同等甚至更好的性能。
- 其它亮点论文的实验设计包括了与现有传统和神经音频编解码器的对比实验,使用了多个数据集,同时提供了开源代码。值得进一步研究的是Gull内置的音频超分辨率能力和弹性解码器网络的设计。
- 最近的相关研究包括:《WaveRNN: A Generative Model for Raw Audio》、《Parallel WaveGAN: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-resolution Spectrogram》、《MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis》等。
沙发等你来抢
去评论
评论
沙发等你来抢