- 简介学习稳健的音频表示目前需要大量真实世界声音记录数据集。通过对这些记录应用人工变换,模型可以学习识别相似之处,尽管存在微小的变化,这是通过对比学习等技术实现的。然而,这些变换仅是真实世界声音中发现的真实多样性的近似,这些声音是由从声带振动到乐器共鸣的复杂物理过程产生的。我们提出了一个解决数据规模和变换限制的解决方案,利用合成音频。通过随机扰动声音合成器的参数,我们生成音频替身-合成的正对,其中包含音色、音高和时间包络的因果操作变化。这些变化很难通过现有音频的变换实现,提供了丰富的对比信息来源。尽管转向随机生成的合成数据,我们的方法产生了强大的表示,在标准音频分类基准测试中与真实数据竞争力相当。值得注意的是,我们的方法轻量级,不需要数据存储,并且只有一个超参数,我们进行了广泛的分析。我们提供这种方法作为现有音频对比学习策略的补充,使用合成声音来减轻从业人员的数据负担。
- 图表
- 解决问题论文试图通过使用合成音频数据来解决学习鲁棒音频表示所需的真实世界数据集不足和转换限制的问题。
- 关键思路通过随机扰动声音合成器的参数,生成具有因果性操作变化的合成正对,并提供对比信息,从而生成强大的音频表示,竞争标准音频分类基准。
- 其它亮点该方法是轻量级的,不需要数据存储,只有一个超参数。实验结果表明,该方法产生的音频表示与真实数据相比具有竞争力。该方法可以作为对现有对比学习策略的补充。
- 近期的相关研究包括使用对比学习进行音频表示学习,使用数据增强技术来扩充真实数据集,以及使用合成数据进行图像表示学习。
沙发等你来抢
去评论
评论
沙发等你来抢