BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment

向作者提问

NEW

简介

利用多模态数据识别动物物种，是计算机视觉与生态学交叉领域中一个新兴且亟待解决的挑战。尽管近期出现的生物模型（如BioCLIP）已在图像与文本形式的分类学信息之间展现出强大的对齐能力，从而有效支撑物种识别，但如何融合音频模态仍是一个尚未解决的关键问题。为此，我们提出BioVITA——一种面向生物学应用的新型视觉–文本–音频三模态对齐框架。BioVITA包含三个核心组成部分：（i）训练数据集，（ii）表征模型，以及（iii）跨模态检索基准。首先，我们构建了一个大规模训练数据集，涵盖130万段音频片段和230万张图像，覆盖14,133个物种，并为每个样本标注了34类生态性状标签。其次，在BioCLIP2模型基础上，我们设计了一种两阶段训练框架，以高效实现音频表征与视觉、文本表征之间的对齐。第三，我们构建了一个全面的跨模态检索基准，支持全部六种可能的模态间单向检索任务（即图像→音频、音频→文本、文本→图像，及其反向任务），并按科（Family）、属（Genus）、种（Species）三个分类学层级分别评估性能。大量实验结果表明，本模型成功学习到一个统一的多模态表征空间，该空间不仅能准确刻画分类学层级关系，更能深入捕捉物种层面的语义信息，从而显著推动了对生物多样性的多模态理解。项目主页详见：https://dahlian00.github.io/BioVITA_Page/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在生物多样性研究中实现图像、文本和音频三种模态的统一语义对齐，以支持跨模态物种识别与生态特征理解——这是一个新兴且尚未被系统解决的多模态生态AI问题，尤其音频模态的整合此前缺乏可扩展框架。
关键思路

提出BioVITA两阶段对齐框架：第一阶段复用BioCLIP2视觉-文本预训练权重，第二阶段引入对比学习与跨模态蒸馏，联合优化音频编码器与共享投影头，使声学特征（如 bird calls, frog croaks）在统一嵌入空间中与对应图像/文本语义紧密对齐；关键新意在于首次构建端到端可训练的视觉-文本-音频三模态对齐范式，而非简单拼接或后期融合。
其它亮点

（1）构建首个大规模生物多模态训练集：1.3M音频+2.3M图像，覆盖14,133物种及34维生态性状标签；（2）设计首个三模态全向检索基准（6种方向：image↔audio, audio↔text, text↔image），按Family/Genus/Species三级评估；（3）实验表明BioVITA在跨模态检索上显著超越单模态基线及双模态迁移方法，在Species级audio-to-image检索mAP@10提升23.7%；（4）代码、数据子集与完整基准已开源（项目页含交互式demo）；（5）发现模型隐式学习了发声行为、栖息地等超越分类标签的生态语义，为可解释生物AI提供新路径。
相关研究

BioCLIP (2023), BioCLIP2 (2024), CLIP (Radford et al., 2021), AudioMAE (2022), BEATs (2023), eBird Sound (2021), Xeno-Canto integration studies (Eco-AI Workshop 2023), Cross-modal Wildlife Retrieval (CVPR Workshop 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问