Gull: A Generative Multifunctional Audio Codec

2024年04月07日
  • 简介
    我们介绍了Gull,一种生成式多功能音频编解码器。Gull是一种通用的神经音频压缩和解压缩模型,可应用于广泛的任务和应用,如实时通信、音频超分辨率和编解码器语言模型。Gull的关键组件包括(1)通过子带建模方案实现通用采样率建模,这是受到音频源分离最近进展的启发,(2)由传统音频编解码器启发的增益形状表示,(3)改进的残差矢量量化模块,(4)弹性解码器网络,在推理过程中可以实现用户定义的模型大小和复杂度,(5)内置的音频超分辨率能力,而不增加比特率。我们将Gull与现有的传统和神经音频编解码器进行比较,并展示Gull在各种采样率、比特率和模型复杂度的主观和客观评估指标上能够实现与现有模型相当甚至更好的性能。
  • 图表
  • 解决问题
    论文试图解决音频压缩和解压缩中的通用问题,包括实时通信、音频超分辨率和编解码器语言模型等方面。同时,该论文还试图提高音频编解码器的性能。
  • 关键思路
    Gull是一个多功能的生成音频编解码器,其关键组件包括通用采样率建模、增益-形状表示、改进的残差向量量化模块和弹性解码器网络。Gull还具有内置的音频超分辨率功能,能够在不增加比特率的情况下提高音频质量。
  • 其它亮点
    论文通过与传统和神经音频编解码器的比较,证明了Gull在各种采样率、比特率和模型复杂度下均能达到同等或更好的性能。实验使用了多个数据集,并提供了开源代码。
  • 相关研究
    与该论文相关的研究包括:1. WaveNet:一种用于语音合成的深度神经网络;2. Opus:一种开放源码的音频编解码器;3. Deep Voice:一种基于深度神经网络的语音合成系统。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论