- 简介这项研究探讨了利用大型语言模型(LLMs)的强大能力来理解多模态(即视频和运动模态)人类行为的领域。与最近为仅视频或仅运动理解设计的LLMs不同,我们认为理解人类行为需要同时对视频和运动序列(例如SMPL序列)进行建模,以有效捕捉微妙的身体部位动态和语义。因此,我们提出了MotionLLM,这是一个简单而有效的人体运动理解、字幕和推理框架。具体而言,MotionLLM采用统一的视频-运动训练策略,利用现有粗糙的视频文本数据和细粒度的运动文本数据的互补优势,获取丰富的时空洞察力。此外,我们收集了一个包含多样化视频、运动、字幕和说明的大量数据集MoVid。此外,我们提出了MoVid-Bench,其中包含精心手动注释,以更好地评估视频和运动上的人类行为理解。广泛的实验表明,MotionLLM在字幕、时空理解和推理能力方面具有优越性。
-
- 图表
- 解决问题本文旨在通过利用大型语言模型(LLM)的强大功能,探讨多模态(即视频和运动模态)人类行为理解的领域。相较于最近为视频或运动理解设计的LLM,本文认为理解人类行为需要从视频和运动序列(如SMPL序列)共同建模,以有效捕捉微妙的身体部位动态和语义。本文提出了MotionLLM框架,采用统一的视频-运动训练策略,利用现有的粗糙视频-文本数据和细粒度运动-文本数据的互补优势,获取丰富的时空洞察力。此外,本文收集了一个大规模的数据集MoVid,包括各种视频、运动、字幕和说明。另外,我们提出了MoVid-Bench,进行了仔细的手动注释,以更好地评估视频和运动上的人类行为理解。广泛的实验表明,MotionLLM在字幕、时空理解和推理能力方面具有优越性。
- 关键思路本文提出了MotionLLM框架,采用统一的视频-运动训练策略,利用现有的粗糙视频-文本数据和细粒度运动-文本数据的互补优势,获取丰富的时空洞察力。MotionLLM采用联合视频-运动编码器和解码器来学习视频和运动的表示,并在此基础上进行人类行为理解、字幕生成和推理。
- 其它亮点本文的亮点包括:1. 提出了一种新的框架MotionLLM,用于人类行为理解、字幕生成和推理;2. 采用联合视频-运动编码器和解码器来学习视频和运动的表示;3. 收集了一个大规模的数据集MoVid,用于评估人类行为理解的性能;4. 提出了MoVid-Bench,进行了仔细的手动注释,以更好地评估视频和运动上的人类行为理解。
- 最近在这个领域中,还有一些相关的研究,如:1.《Multi-modal Transformer for Video Captioning》;2.《Learning to Jointly Generate and Control Adversarial Motion for Video Generation》;3.《Cross-modal Video Moment Retrieval with Spatial and Temporal Reasoning》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流