- 简介当前用于评估音频表示学习(ARL)方法的标准化基准测试的多样性有限,可能会阻碍对当前方法能力的系统比较。我们提出了ARCH,这是一个全面的基准测试,用于在不同的音频分类领域中评估ARL方法,包括声学事件、音乐和语音。ARCH包括12个数据集,可以让我们彻底评估不同大小的预训练SSL模型。ARCH通过其对广泛领域的统一访问和其能够轻松地整合新数据集和模型,简化了ARL技术的基准测试。为了解决当前缺乏开源的非语音音频预训练模型的问题,我们还发布了新的预训练模型,这些模型在非语音数据集上表现出色。我们认为,所提供的广泛评估为最先进的ARL方法提供了有价值的见解,并有助于确定有前途的研究方向。
- 图表
- 解决问题论文旨在解决音频表示学习(ARL)方法评估中标准化基准的有限多样性可能会阻碍当前方法能力的系统比较的问题。
- 关键思路论文提出了ARCH,一个全面的基准,用于在不同的音频分类领域(包括声学事件、音乐和语音)上评估ARL方法。ARCH包括12个数据集,可以全面评估不同规模的预训练SSL模型的性能。
- 其它亮点论文通过统一访问各种领域和轻松整合新数据集和模型的能力,简化了ARL技术基准测试。为了解决目前缺乏针对非语音音频的开源预训练模型的问题,论文还发布了新的预训练模型,这些模型在非语音数据集上表现出色。论文提供了有价值的见解,可以指出ARL方法的最新状况,并有助于确定有前途的研究方向。
- 最近在这个领域中的相关研究包括:1. “Unsupervised Feature Learning for Urban Sound Classification”,2. “Deep Convolutional Neural Networks and Data Augmentation for Environmental Sound Classification”
沙发等你来抢
去评论
评论
沙发等你来抢