Simple and Efficient Quantization Techniques for Neural Speech Coding

2024年05月14日
  • 简介
    神经音频编码已成为一个活跃的研究方向,通过承诺在经典编码技术无法实现的非常低比特率下提供良好的音频质量。在这里,端到端可训练的自编码器模型代表了最先进的技术,其中必须学习自编码器瓶颈处的离散表示,以允许对输入音频信号进行有效传输。这种离散表示通常是通过将神经编码器的输出应用量化器生成的。在几乎所有最先进的神经音频编码方法中,这个量化器被实现为矢量量化器(VQ),并且已经花费了大量的努力来缓解在与神经音频编码器一起使用时这种量化技术的缺点。在本文中,我们提出了一种基于投影标量量化(SQ)的简单替代方案,这些量化技术不需要任何额外的损失、调度参数或码书存储,从而简化了神经音频编解码器的训练。此外,我们提出了一种新的因果网络架构,用于神经语音编码,在非常低的计算复杂度下表现良好。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在提出一种简单的量化方法,以替代神经音频编码中常用的向量量化方法,并提出一种新的因果网络架构,以实现高效的神经语音编码。
  • 关键思路
    论文提出了一种基于投影标量量化(SQ)的量化技术,与向量量化(VQ)相比,不需要任何额外的损失、调度参数或码本存储,从而简化了神经音频编解码器的训练,并提出了一种新的因果网络架构,以实现高效的神经语音编码。
  • 其它亮点
    论文的实验结果表明,基于SQ的量化方法在保证音频质量的情况下,能够实现比VQ更高的压缩比。此外,论文还提出了一种新的因果网络架构,称为CausalTCN,它能够在保持良好音频质量的同时,大幅减少计算复杂度。
  • 相关研究
    最近的相关研究包括:1. “Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders”;2. “End-to-End Low Bitrate Speech Coding with a Deep Combination of WaveNet and LSTM”;3. “Neural Speech Coding with Discrete Cosine Transform and Vector Quantization”等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问