- 简介生物声学研究为动物的行为、生态和保护提供了宝贵的见解。大多数生物声学数据集由长时间的录音组成,其中感兴趣的事件(如鸣叫声)非常少。分析这些数据集对研究人员来说是一个巨大的挑战,深度学习技术已成为标准方法。然而,这些技术的应用仍然具有挑战性,因为它们主要是针对计算机视觉而设计的模型,其中音频波形被处理为频谱图表示进行训练和推断。本文以两种方式改进了生物声学中深度学习技术的现状:首先,提出了animal2vec框架,这是一个完全可解释的transformer模型和自监督训练方案,专门针对稀疏和不平衡的生物声学数据。其次,公开发布了MeerKAT数据集,这是一个大规模的数据集,包含超过1068小时的野生猫鼬的音频记录,其中184小时具有12种时间分辨率的鸣叫类型,每种类型都具有毫秒级的分辨率,是目前公开可用的最大的陆生哺乳动物标记数据集。此外,本文还将animal2vec与NIPS4Bplus鸟鸣数据集进行了基准测试。我们报告了两个数据集的新的最先进的结果,并评估了animal2vec在少量标记训练数据的情况下的few-shot能力。最后,我们进行了消融研究,以突出我们的架构与基于vanilla transformer的人造声音之间的差异。animal2vec使研究人员能够对大量稀疏的生物声学数据进行分类,即使只有很少的基础信息可用。此外,MeerKAT数据集是第一个用于在预训练/微调范式中基准测试生物声学模型的大规模、毫秒级分辨率语料库。我们相信,这为生物声学研究设立了一个新的参考点。
- 图表
- 解决问题论文旨在解决生物声学数据分析中的深度学习技术适应性问题,提出了一个新的框架和自监督训练方案,以及一个大规模的声音数据集。
- 关键思路animal2vec框架是一个可解释的transformer模型和自监督训练方案,专门为稀疏和不平衡的生物声学数据设计。MeerKAT数据集是一个超过1068小时的大规模数据集,包含12种时间分辨率的动物叫声,是目前公开可用的最大的陆生哺乳动物标记数据集。
- 其它亮点论文在NIPS4Bplus鸟鸣数据集和MeerKAT数据集上都取得了新的最先进结果,还评估了animal2vec在少量标记数据的情况下的few-shot能力。MeerKAT数据集是一个新的参考点,可以用于生物声学模型的预训练和微调。
- 最近的相关研究包括使用深度学习技术进行生物声学数据分析的其他工作,如使用卷积神经网络和其他模型对声音进行分类和检测的研究。
沙发等你来抢
去评论
评论
沙发等你来抢