GPT-4o: Visual perception performance of multimodal large language models in piglet activity understanding

简介

动物行为学是动物研究的重要方面，而动物行为标记是研究动物行为的基础。这个过程通常涉及使用行为语义标签标记视频片段，这是一个复杂、主观和多模态的任务。随着多模态大语言模型(LLMs)的快速发展，新的应用程序已经出现，用于畜牧场景下的动物行为理解任务。本研究评估了多模态LLMs在动物活动识别中的视觉感知能力。为了实现这一目标，我们创建了小猪测试数据，其中包括个体小猪的近距离视频片段和注释的全景视频片段。这些数据被用来评估四个多模态LLMs-Video-LLaMA、MiniGPT4-Video、Video-Chat2和GPT-4 omni(GPT-4o)-在小猪活动理解方面的表现。通过包括计数、演员指称、语义对应、时间感知和鲁棒性在内的五个维度的全面评估，我们发现，虽然当前的多模态LLMs需要在语义对应和时间感知方面进行改进，但它们已经初步展示了动物活动识别的视觉感知能力。值得注意的是，GPT-4o表现出色，与Video-Chat2和GPT-4o相比，它们在近距离视频片段中表现出更好的语义对应和时间感知。本研究中的初步评估实验证实了多模态大语言模型在畜牧场景视频理解中的潜力，并为未来动物行为视频理解研究提供了新的方向和参考。此外，通过深入探索视觉提示对多模态大语言模型的影响，我们期望通过人类视觉处理方法提高畜牧场景下动物行为识别的准确性和效率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估多模态大语言模型在畜牧场场景下动物活动识别中的视觉感知能力
关键思路

本论文通过评估四种多模态大语言模型在猪仔活动识别中的表现，发现它们在动物活动识别方面具有潜力，但需要在语义对应和时间感知方面进行改进。
其它亮点

实验使用了猪仔测试数据集，并对多模态大语言模型在计数、角色指代、语义对应、时间感知和鲁棒性等五个方面进行了综合评估。其中，GPT-4o表现优异，Video-Chat2和GPT-4o在近距离视频片段中的语义对应和时间感知方面表现显著优于全景镜头。本论文为畜牧场场景下动物行为视频理解提供了新的方向和参考。
相关研究

近期在该领域的相关研究包括："A review of animal behavior recognition using video and wearable sensors"、"Deep learning for animal behavior recognition: A survey"等。

GPT-4o: Visual perception performance of multimodal large language models in piglet activity understanding

提问交流

提问交流