近期,字节跳动火山语音团队的最新音乐检索系统 ByteCover2 入选了 ICASSP 2022。这一系统主要面向翻唱识别(CSI)这一音乐信息检索(MIR)领域的一项重要任务,通过表征学习方法让其具备提取音乐核心特征的能力,并且该特征能够对种类繁多的音乐重演绎具有良好的鲁棒性,检索速度提高 8 倍。经 Da-Tacos 数据集上的评估,准确率远超其他方案的 SoTA 性能。
翻唱识别往往需要对音乐中的一些常见变化具有鲁棒性,从而保证系统专注于对音乐旋律走向的建模。在设计翻唱识别系统时,有三种音乐变化通常会被重点考虑,即音乐调式偏移、音乐结构变化和音乐节奏变化。此外,抖音平台上每日新增千万量级的用户投稿,如何快速应对巨量查询需求,提高识别系统的整体吞吐量并同时确保识别准确性,也是亟待解决的问题;另外在设计特征时,如何在保障其他性质的前提下尽可能减小特征大小,从而减少存储空间,降低系统复杂度和成本,也是字节跳动内部开发翻唱识别时面临的挑战。内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢