Weakly-supervised Audio Separation via Bi-modal Semantic Similarity

2024年04月02日
  • 简介
    有条件地在多源音频混合物中进行声音分离,而在训练期间没有单个源声音数据可供使用,一直是一个长期的挑战。现有的基于混合和分离的方法在多源训练混合物中的性能下降明显,因为在训练期间缺乏单个源分离情况的监督信号。然而,在语言条件音频分离的情况下,我们确实可以访问我们训练数据中每个音频混合物的相应文本描述,这可以被视为语言模态中音频样本的(粗略)表示。因此,在本文中,我们提出了一个通用的双模态分离框架,可以增强现有的无监督框架,以使用调制模态(即音频)中的易于分离的相应信号来分离目标模态(即语言)中的单源信号,而在训练期间没有访问目标模态中的单源样本。我们通过实验证明,如果我们可以访问两种模态之间的预训练联合嵌入模型(即CLAP),那么这是完全可行的。此外,我们提出将我们的框架纳入两种基本情景中以增强分离性能。首先,我们展示了我们提出的方法显著提高了纯无监督基线的性能,通过减少训练和测试样本之间的分布偏移。特别地,我们展示了我们的框架可以在信号失真比(SDR)方面比基线提高71%,达到了监督学习性能的97.5%。其次,我们展示了如果我们通过我们提出的弱监督框架来增强监督学习本身,可以进一步提高性能17%,这使得我们能够实现强大的半监督音频分离框架。
  • 图表
  • 解决问题
    论文旨在解决没有单源音频数据训练的多源音频混合条件下的条件声音分离问题。论文提出了一种使用语言模态的条件信号来增强无监督框架的方法。
  • 关键思路
    论文提出了一种基于双模态分离框架,可以使用语言模态的信号来分离目标模态(即音频)中的单源信号,而无需在训练期间访问目标模态中的单源样本。这可以通过使用两种模态之间的预训练联合嵌入模型来实现。
  • 其它亮点
    论文通过实验表明,该方法可以显著提高纯无监督基线的性能,并减少训练和测试样本之间的分布偏移。此外,论文还提出了一种弱监督框架,可以进一步提高监督学习的性能。
  • 相关研究
    在这个领域中,最近的相关研究包括《End-to-end Adversarial Text-to-Speech》、《Improving Audio-Visual Speech Separation with Sound Localization》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论