SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound

2024年04月30日
  • 简介
    大型语言模型(LLMs)通过音频编解码器将音频转换为离散的标记,使得语言建模技术可以应用于音频数据,从而显著提高了音频处理的能力。然而,传统编解码器通常在高比特率或仅限于语音等狭窄领域内运行,并且缺乏进行有效语言建模所需的语义线索。为了解决这些挑战,我们介绍了SemantiCodec,这是一种新型编解码器,旨在将各种音频类型(包括语音、一般音频和音乐)压缩成每秒少于一百个标记,而不会影响质量。SemantiCodec采用双编码器架构:一个语义编码器使用自监督的AudioMAE,通过对大量音频数据进行k-means聚类离散化,另一个声学编码器用于捕捉其余细节。语义和声学编码器的输出用于通过基于扩散模型的解码器重构音频。SemantiCodec有三个变体,标记速率为每秒25、50和100个,支持0.31 kbps至1.43 kbps之间的一系列超低比特率。实验结果表明,SemantiCodec在重构质量方面明显优于最先进的Descript编解码器。我们的结果还表明,即使在显著更低的比特率下,SemantiCodec仍然包含比所有评估的音频编解码器更丰富的语义信息。我们的代码和演示可在https://haoheliu.github.io/SemantiCodec/上获得。
  • 图表
  • 解决问题
    SemantiCodec试图解决音频编解码器中语义信息缺乏的问题,导致传统编解码器难以进行高效的语言建模。该论文提出了一种能够在不牺牲音频质量的情况下,将音频压缩为每秒不到100个标记的编解码器。
  • 关键思路
    SemantiCodec采用双编码器架构,包括语义编码器和声学编码器,以捕捉音频的语义信息和细节信息。语义编码器使用自监督的AudioMAE,通过对大量音频数据进行k-means聚类进行离散化。声学编码器用于捕捉剩余的细节信息。通过扩散模型解码器,将语义编码器和声学编码器的输出用于重构音频。
  • 其它亮点
    SemantiCodec支持三种不同的标记率,可以在0.31 kbps和1.43 kbps之间提供超低比特率。实验结果表明,SemantiCodec在重构质量方面明显优于最先进的Descript编解码器。此外,SemantiCodec甚至在显著更低的比特率下,仍然包含比所有评估的音频编解码器更丰富的语义信息。该论文提供了代码和演示,并支持多种音频类型的压缩。
  • 相关研究
    在这个领域中,最近的相关研究包括:1.《Descript: A Differentiable Audio Codec for End-to-End Learning》2.《Neural Speech Codec with Adversarial Multi-task Learning》3.《Learning to Compress Speech with Magnitude-Phase Modulation and Vector Quantization》
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论