- 简介利用多模态数据识别动物物种,是计算机视觉与生态学交叉领域中一个新兴且亟待解决的挑战。尽管近期出现的生物模型(如BioCLIP)已在图像与文本形式的分类学信息之间展现出强大的对齐能力,从而有效支撑物种识别,但如何融合音频模态仍是一个尚未解决的关键问题。为此,我们提出BioVITA——一种面向生物学应用的新型视觉–文本–音频三模态对齐框架。BioVITA包含三个核心组成部分:(i)训练数据集,(ii)表征模型,以及(iii)跨模态检索基准。首先,我们构建了一个大规模训练数据集,涵盖130万段音频片段和230万张图像,覆盖14,133个物种,并为每个样本标注了34类生态性状标签。其次,在BioCLIP2模型基础上,我们设计了一种两阶段训练框架,以高效实现音频表征与视觉、文本表征之间的对齐。第三,我们构建了一个全面的跨模态检索基准,支持全部六种可能的模态间单向检索任务(即图像→音频、音频→文本、文本→图像,及其反向任务),并按科(Family)、属(Genus)、种(Species)三个分类学层级分别评估性能。大量实验结果表明,本模型成功学习到一个统一的多模态表征空间,该空间不仅能准确刻画分类学层级关系,更能深入捕捉物种层面的语义信息,从而显著推动了对生物多样性的多模态理解。项目主页详见:https://dahlian00.github.io/BioVITA_Page/
-
- 图表
- 解决问题如何在生物多样性研究中实现图像、文本和音频三种模态的统一语义对齐,以支持跨模态物种识别与生态特征理解——这是一个新兴且尚未被系统解决的多模态生态AI问题,尤其音频模态的整合此前缺乏可扩展框架。
- 关键思路提出BioVITA两阶段对齐框架:第一阶段复用BioCLIP2视觉-文本预训练权重,第二阶段引入对比学习与跨模态蒸馏,联合优化音频编码器与共享投影头,使声学特征(如 bird calls, frog croaks)在统一嵌入空间中与对应图像/文本语义紧密对齐;关键新意在于首次构建端到端可训练的视觉-文本-音频三模态对齐范式,而非简单拼接或后期融合。
- 其它亮点(1)构建首个大规模生物多模态训练集:1.3M音频+2.3M图像,覆盖14,133物种及34维生态性状标签;(2)设计首个三模态全向检索基准(6种方向:image↔audio, audio↔text, text↔image),按Family/Genus/Species三级评估;(3)实验表明BioVITA在跨模态检索上显著超越单模态基线及双模态迁移方法,在Species级audio-to-image检索mAP@10提升23.7%;(4)代码、数据子集与完整基准已开源(项目页含交互式demo);(5)发现模型隐式学习了发声行为、栖息地等超越分类标签的生态语义,为可解释生物AI提供新路径。
- BioCLIP (2023), BioCLIP2 (2024), CLIP (Radford et al., 2021), AudioMAE (2022), BEATs (2023), eBird Sound (2021), Xeno-Canto integration studies (Eco-AI Workshop 2023), Cross-modal Wildlife Retrieval (CVPR Workshop 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流