编译 | 曾全晨

审稿 | 王建民

今天为大家介绍的是来自Christian Rutz的一篇机器学习帮助学习动物行为的论文。

过去几年中,使用机器学习(ML)方法研究非人类动物(以下简称为“动物”)行为的兴趣大增。其中一个引起特别关注的话题是利用深度学习和其他方法解码动物的沟通系统。现在是解决有关数据可用性、模型验证和研究伦理方面的挑战,并拥抱跨学科和跨领域合作机会的时候了。

研究人员必须通过观察和实验推断动物信号的含义或功能。这是一项具有挑战性的任务,其中一个原因是动物使用广泛的沟通方式,包括视觉、听觉、触觉、化学和电信号,通常这些信号会同时使用,超出了人类的感知能力。观察工作侧重于记录感兴趣的信号以及详细的背景信息,包括信号发送者和接收者的身份、状态和行为,它们之间的关系和过去的互动,以及相关的环境条件。某些信号类型可能只在特定情况下产生,引发特定的行为反应;一个经典的例子是绿猴(Chlorocebus pygerythrus)在发现捕食者时发出警报声,引导群体成员寻找庇护所。建立这样的相关性可以提出关于信号功能的假设,然后可以通过实验进行测试。


按照这种方法,几十年来的细致研究已经在理解动物沟通方面取得了重大进展。但是仍然存在着相当大的挑战,例如在数据收集和解释中避免人类中心主义的偏见,处理日益增长的数据量,绘制出动物信号行为的完整复杂性,以及实现全面的功能解码。机器学习提供了一些潜在的解决方案。可以使用日益强大的机器学习方法来研究动物信号,这些方法在建模目标、数据要求和对专家注释的依赖程度上各不相同。其中包括监督学习(例如,确定哪些特征可以准确预测人工标记的信号类型)以及无监督学习和自监督学习(例如,发现个体、群体或种群的信号库存)等方法。


自监督的深度学习方法引起了广泛的研究兴趣,因为它们既不需要注释的数据集,也不需要预先定义可能与沟通相关的特征。它们也是“基础模型”的基础,这些模型在任务之间具有显著的泛化能力。例如,经过训练以预测给定单词序列的下一个单词的大型语言模型,随后可以用于执行更复杂的任务,例如推断语言单位的句法类别和关系,或生成逼真的文本。

图1 机器学习(ML)方法可以用于整合有关发信者、收信者和通信背景的信息,揭示可能为信号功能和进一步设计受控实验提供假设的模式。


能够整合不同数据模态的方法在促进功能解码方面尤为有前景,因为它们可以提供对通信事件的更全面的描述。已经开发了能够高效学习将图像与文字、文字与语音以及其他模态组合的内容相关联的机器学习模型,这种方法可以有益地应用于动物研究系统,例如通过将声音与特定行为相关联。机器学习将有效地帮助解决检测跨模态关联(和结构)的挑战性任务,进而为建立因果关系的验证实验的设计提供信息(见图1)。


由于许多机器学习方法最初是为自然语言处理开发的,因此开始出现了探索人类语言和动物通信系统之间潜在相似性的有趣途径。观察和实验工作表明,至少有一些动物,如南部鹊鸲(Turdoides bicolor),表现出了人类语言所特有的序列敏感性和组合性。机器学习方法可以利用大规模数据集搜索传统方法无法捕捉到的细微和复杂的特征,潜在地扩展了跨不同分类群之间共享的已知通信特征集。


越来越多的研究正在利用机器学习的潜力来研究动物通信,包括大型的合作项目,如地球物种项目(ESP)、跨尺度的通信与协调(CCAS)、人类、动物和机器人之间的语音互动(VIHAR)、物种间互联网和鲸类翻译倡议项目(Project CETI),该项目最近提供了关于使用机器学习辅助研究抹香鲸(Physeter macrocephalus)通信的详细路线图。尽管应对这一重大研究挑战的努力明显在加强,但该领域至少面临两个与数据相关的主要障碍:大多数方法需要大量数据,而单一模态(如鸣叫声)的记录不足以进行功能解码,需要额外的上下文信息,包括动物行为和环境的信息。


社区分享的档案中保存着大量的音频和视频数据,被动记录阵列正在积累这些数据,或者可以从互联网上获取。挖掘这些数据源将提供对动物通信丰富性的迷人窥视,但单凭这些工作很难在解码信号功能方面取得突破。这主要是因为缺乏有关发送者和接收者的身份和状态以及具体通信环境的可靠信息。


一些分类群的高质量数据集已经可用,使得核心模型开发目标能够迅速取得进展。但显然,需要社区动员和适当的资源投入,以确保物种专家充分参与现有记录的注释和解释,并能够领导大规模的有针对性数据收集工作,无论是在实验室还是野外。对于野生动物,可以使用多种方法收集合适的数据集,包括观察焦点对象、自动化摄像机和音频记录器、无人机和机器人,以及动物可穿戴设备(生物记录器)。一些生物记录设备可以同时收集同一个体的音频和身体运动数据,为多模态机器学习模型提供有价值的输入(见图1)。


这一过程可能是最大的回报。将机器学习的视角应用于广泛的分类群,很可能会揭示动物交流行为中以前隐藏的复杂性。许多似乎只使用少数基本叫声类型的物种可能实际上拥有丰富的声音剧目,而那些以其复杂的交流而闻名的物种可能会被证明更加令人印象深刻。最近一项研究探索了斑胸草雀(Taeniopygia guttata)的个体和群体间声音行为的差异,突出了机器学习的发现潜力。


机器学习能够对广泛的物种进行系统的声音(或其他信号)输出清单,从而实现前所未有的比较分析,帮助研究人员确定不同交流系统的进化驱动因素、基因组标记、生活史相关性以及认知和感觉基础。同时,对个体主题进行的长期记录可能揭示了交流技能的产生和成熟过程。然而,这个领域的进展最重要的或许是对动物保护和福利的推动。此外,越来越多的人认识到,社会传递的信息可能会影响种群的生存能力。如果声音方言被确认为“文化标记”,机器学习方法将能够自动映射社会种群结构并确定处于丧失关键知识风险的动物群体。


机器学习还可以用于识别与动物的压力、不适、疼痛和回避,或与积极状态(如兴奋和好玩)相关的信号。这可以推动改善家畜和其他圈养动物的生活条件,并且甚至可以测量野生种群对人为压力源的影响。目前,生态“声景”分析主要集中在物种检测方面,但有可能在景观层面上关注动物的福利。这个想法可以进一步发展,超越交流领域,例如通过开发能够检查卫星记录的动物移动轨迹,以寻找疾病、困扰或人类回避的迹象的机器学习工具。尽管机器学习辅助动物交流研究具有多种潜在的好处,但也引发了重大的伦理问题,例如在什么情况下进行与野生动物的回放实验是可接受的。先进的聊天机器人可能会在完全理解信号功能之前与动物进行沟通,从而可能造成意外伤害。例如,向野生座头鲸(Megaptera novaeangliae)广播鸣叫声可能会在整个洋盆范围内意外触发歌唱行为的变化。这些问题必须直面解决,不能将其视为事后才考虑的问题。迫切需要跨利益相关者的咨询,制定最佳实践准则和适当的法律框架。


前方还存在其他挑战和机遇。例如,重要的是协调现有倡议中的研究工作,并加强动物交流、跟踪、保护和福利方面专家的参与。尽管技术进步迅速,但该领域的进展仍然取决于对每个研究物种的生物学进行仔细考虑、对交流背景有详细了解以及进行受控行为实验。这种专业知识对于指导和验证机器学习分析、加强数据解释和收集工作至关重要。专业学会和网络可以帮助协调包容性的社区合作。


应该使用数据收集和实验验证相对简单的研究系统来开发工作流程。在圈养环境中,研究人员可以确保出色的实验控制,以及最高的伦理和福利标准;良好的模型包括啮齿动物、蝙蝠和鸟类。这些工作可以与已经可用于某些物种的大规模野外数据集的分析相结合。一旦方法确立,可以谨慎地应用于更具挑战性的难以观察的野生动物研究问题。


目前机器学习的发展速度异常快。除了使用深度学习方法,还可以尝试其他机器学习框架,如强化学习和元学习(即从其他机器学习模型的输出中学习)。随着模型的发展,正式的“基准测试”将是提高分析流程的可靠性和效率的关键,尽管必须采取措施防止滥用开放资源,例如试图干扰、杀伤或将动物用作武器。机器学习具有潜力在我们对动物交流系统的理解方面取得转变性进展,揭示出意想不到的丰富性和复杂性。但重要的是,未来的进展要用于造福正在研究的动物。

参考资料

Christian Rutz et al. ,Using machine learning to decode animal communication.Science381,152-155(2023).DOI:10.1126/science.adg7314