Music2Latent: Consistency Autoencoders for Latent Audio Compression

2024年08月12日
  • 简介
    高效的音频表示对于生成音频建模和音乐信息检索(MIR)任务至关重要,其中压缩连续潜在空间中的音频表示尤为重要。然而,一些现有的音频自编码器存在限制,例如多阶段训练过程、缓慢的迭代采样或低重构质量。本文介绍了Music2Latent,这是一种音频自编码器,通过利用一致性模型克服了这些限制。Music2Latent在单个端到端的训练过程中将样本编码为压缩的连续潜在空间,同时实现了高保真度的单步重构。关键创新包括通过交叉连接将一致性模型调整为所有级别的上采样编码器输出,使用频率自注意力捕捉长程频率依赖性,并采用频率自学习缩放来处理不同噪声水平下不同频率的值分布。我们证明Music2Latent在声音质量和重构精度方面优于现有的连续音频自编码器,并在使用其潜在表示时在下游MIR任务上实现了竞争性能。据我们所知,这是第一个成功尝试训练端到端一致性自编码器模型的案例。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决音频自编码器存在的多阶段训练、迭代采样缓慢或重建质量低等局限性,提出了一种名为Music2Latent的音频自编码器,通过利用一致性模型在单个端到端训练过程中将样本编码为压缩的连续潜在空间,同时实现高保真度的单步重建。
  • 关键思路
    Music2Latent的关键创新点包括通过交叉连接在所有级别上对上采样的编码器输出进行一致性模型的条件化,使用频率自注意力来捕捉长距离的频率依赖性,并采用频率自学习缩放来处理不同噪声水平下不同频率的值分布的变化。
  • 其它亮点
    论文通过实验表明,Music2Latent在音质和重建准确性方面优于现有的连续音频自编码器,同时在使用其潜在表示进行下游MIR任务时实现了竞争性能。此外,该论文还开源了代码。
  • 相关研究
    最近在该领域的相关研究包括:1.《A Deep Learning Based Music Genre Classification Method Using Single-Layer Convolutional Neural Network》;2.《Deep Learning for Music》;3.《Music Auto-Tagging Using Convolutional Neural Networks with Multi-Label Sampling》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问