Towards audio language modeling - an overview

NEW

简介

神经音频编解码器最初被引入以将音频数据压缩成紧凑的代码，以减少传输延迟。研究人员最近发现编解码器的潜力，可以将连续的音频转换为离散的代码，用于开发音频语言模型（LMs）。已经开发了许多高性能的神经音频编解码器和基于编解码器的LMs。本文旨在全面系统地概述神经音频编解码器模型和基于编解码器的LMs。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在系统地介绍神经音频编解码器模型及基于编解码器的语言模型，探索编解码器在将连续音频转化为离散码时的潜力。
关键思路

论文提出了使用神经音频编解码器作为分词器，将连续音频转化为离散码，进而训练基于编解码器的语言模型。
其它亮点

论文详细介绍了多种高性能神经音频编解码器模型及基于编解码器的语言模型，并在多个数据集上进行了实验验证。论文开源了相关代码，为后续研究提供了便利。
相关研究

最近的相关研究包括：1.《WaveNet: A Generative Model for Raw Audio》；2.《Parallel WaveNet: Fast High-Fidelity Speech Synthesis》；3.《Mel Frequency Cepstral Coefficient-based Convolutional Neural Network for Speech Emotion Recognition》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问