- 简介神经音频编解码器最初被引入以将音频数据压缩成紧凑的代码,以减少传输延迟。研究人员最近发现编解码器的潜力,可以将连续的音频转换为离散的代码,用于开发音频语言模型(LMs)。已经开发了许多高性能的神经音频编解码器和基于编解码器的LMs。本文旨在全面系统地概述神经音频编解码器模型和基于编解码器的LMs。
-
- 图表
- 解决问题论文旨在系统地介绍神经音频编解码器模型及基于编解码器的语言模型,探索编解码器在将连续音频转化为离散码时的潜力。
- 关键思路论文提出了使用神经音频编解码器作为分词器,将连续音频转化为离散码,进而训练基于编解码器的语言模型。
- 其它亮点论文详细介绍了多种高性能神经音频编解码器模型及基于编解码器的语言模型,并在多个数据集上进行了实验验证。论文开源了相关代码,为后续研究提供了便利。
- 最近的相关研究包括:1.《WaveNet: A Generative Model for Raw Audio》;2.《Parallel WaveNet: Fast High-Fidelity Speech Synthesis》;3.《Mel Frequency Cepstral Coefficient-based Convolutional Neural Network for Speech Emotion Recognition》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流