MotionLLM: Understanding Human Behaviors from Human Motions and Videos

向作者提问

NEW

简介

这项研究探讨了利用大型语言模型（LLMs）的强大能力来理解多模态（即视频和运动模态）人类行为的领域。与最近为仅视频或仅运动理解设计的LLMs不同，我们认为理解人类行为需要同时对视频和运动序列（例如SMPL序列）进行建模，以有效捕捉微妙的身体部位动态和语义。因此，我们提出了MotionLLM，这是一个简单而有效的人体运动理解、字幕和推理框架。具体而言，MotionLLM采用统一的视频-运动训练策略，利用现有粗糙的视频文本数据和细粒度的运动文本数据的互补优势，获取丰富的时空洞察力。此外，我们收集了一个包含多样化视频、运动、字幕和说明的大量数据集MoVid。此外，我们提出了MoVid-Bench，其中包含精心手动注释，以更好地评估视频和运动上的人类行为理解。广泛的实验表明，MotionLLM在字幕、时空理解和推理能力方面具有优越性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在通过利用大型语言模型（LLM）的强大功能，探讨多模态（即视频和运动模态）人类行为理解的领域。相较于最近为视频或运动理解设计的LLM，本文认为理解人类行为需要从视频和运动序列（如SMPL序列）共同建模，以有效捕捉微妙的身体部位动态和语义。本文提出了MotionLLM框架，采用统一的视频-运动训练策略，利用现有的粗糙视频-文本数据和细粒度运动-文本数据的互补优势，获取丰富的时空洞察力。此外，本文收集了一个大规模的数据集MoVid，包括各种视频、运动、字幕和说明。另外，我们提出了MoVid-Bench，进行了仔细的手动注释，以更好地评估视频和运动上的人类行为理解。广泛的实验表明，MotionLLM在字幕、时空理解和推理能力方面具有优越性。
关键思路

本文提出了MotionLLM框架，采用统一的视频-运动训练策略，利用现有的粗糙视频-文本数据和细粒度运动-文本数据的互补优势，获取丰富的时空洞察力。MotionLLM采用联合视频-运动编码器和解码器来学习视频和运动的表示，并在此基础上进行人类行为理解、字幕生成和推理。
其它亮点

本文的亮点包括：1. 提出了一种新的框架MotionLLM，用于人类行为理解、字幕生成和推理；2. 采用联合视频-运动编码器和解码器来学习视频和运动的表示；3. 收集了一个大规模的数据集MoVid，用于评估人类行为理解的性能；4. 提出了MoVid-Bench，进行了仔细的手动注释，以更好地评估视频和运动上的人类行为理解。
相关研究

最近在这个领域中，还有一些相关的研究，如：1.《Multi-modal Transformer for Video Captioning》；2.《Learning to Jointly Generate and Control Adversarial Motion for Video Generation》；3.《Cross-modal Video Moment Retrieval with Spatial and Temporal Reasoning》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问