Perch 2.0: The Bittern Lesson for Bioacoustics

2025年08月06日
  • 简介
    Perch 是一个用于生物声学的高性能预训练模型。该模型以监督方式训练,既能即开即用地对数千种发声物种进行分类,也能为迁移学习提供强大的嵌入表示。在这一新版本 Perch 2.0 中,我们的训练数据从仅鸟类物种扩展到了涵盖更多物种分类的大型多物种数据集。该模型使用基于原型学习分类器的自蒸馏方法,以及一种新的源预测训练目标进行训练。Perch 2.0 在 BirdSet 和 BEANS 基准测试中达到了最先进的性能。尽管几乎没有任何海洋训练数据,它在海洋类迁移学习任务上的表现也优于专门的海洋模型。我们提出了关于为何细粒度物种分类特别适合作为生物声学预训练任务的若干假设。
  • 图表
  • 解决问题
    论文试图解决生物声学领域中跨物种声音分类和迁移学习效果不佳的问题,同时验证细粒度物种分类作为预训练任务在生物声学中的有效性。这个问题在多物种、跨领域(如陆地与海洋)的背景下具有挑战性,且此前未被充分研究。
  • 关键思路
    提出Perch 2.0模型,通过自蒸馏和原型学习分类器结合新的源预测训练目标,将预训练从单一鸟类扩展到多物种数据集。这种方法不仅提升了分类性能,还增强了模型在不同领域(如海洋生物)的泛化能力,尽管训练数据中几乎没有相关样本。
  • 其它亮点
    1. Perch 2.0在BirdSet和BEANS基准测试中达到SOTA性能 2. 即使在缺乏海洋训练数据的情况下,Perch 2.0也优于专门的海洋模型 3. 实验设计包括跨物种迁移学习任务,验证了模型的泛化能力 4. 开源代码和模型有助于后续研究
  • 相关研究
    1. BEANS: A self-supervised pre-training approach for bioacoustic data 2. BirdNET: A deep learning solution for bird species identification from audio 3. Efficient Audio Transformers for bioacoustic applications 4. Self-supervised learning for underwater marine species detection
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论