- 简介电影音频源分离(CASS)是音频源分离的一个相对较新的子任务,涉及将混合音频分离成对话、音乐和效果三个部分。迄今为止,只有一个公开可用的CASS数据集存在,即Divide and Remaster(DnR)数据集,目前版本为2。虽然DnR v2对CASS非常有用,但是在2023年声音分离挑战赛中的使用中,已经确定了几个需要改进的领域。在本研究中,我们开发了DnR数据集的第3版,解决了与非对话部分的语音内容、响度分布、母带处理和语言多样性相关的问题。特别是,DnR v3的对话部分包括来自多个语系的30多种语言的语音内容,包括但不限于日耳曼语系、罗曼语系、印欧-雅利安语系、德拉维达语系、马来-波利尼西亚语系和班图语系。使用Bandit模型进行基准测试表明,训练多语言数据可以显著提高模型的泛化能力,即使在数据可用性较低的语言中也是如此。即使在数据可用性较高的语言中,多语言模型的表现通常与在单语CASS数据集上训练的专用模型相当甚至更好。
- 图表
- 解决问题本论文旨在解决Cinematic audio source separation (CASS)中的问题,即如何将混合音频分离成对话、音乐和效果的声音轨道。同时,作者还试图通过改进现有的数据集,提高语言多样性和音量分布等问题。这是一个相对较新的问题。
- 关键思路本论文提出了DnR v3数据集,通过增加语言多样性、改善音量分布、改进母带处理等方面的改进,提高了CASS的准确性。同时,作者还发现使用多语言数据训练的模型可以显著提高模型的泛化能力。
- 其它亮点论文中使用了Bandit模型进行实验,并证明了多语言数据训练的模型可以显著提高CASS的准确性。DnR v3数据集中的对话轨道包括来自30多种语言家族的语音内容。此外,论文还提供了开源的代码和数据集。
- 在相关研究中,最近的一些论文包括:'A Survey of Audio-Based Music Structure Analysis'、'Deep clustering: Discriminative embeddings for segmentation and separation'、'Music source separation: An overview of recent approaches'等。
沙发等你来抢
去评论
评论
沙发等你来抢