Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM

向作者提问

NEW

简介

人体运动生成是生成式计算机视觉中的重要研究方向，但实现长序列和高效运动生成仍然具有挑战性。最近，状态空间模型（SSM）的发展，尤其是Mamba，展示了在长序列建模和高效硬件设计方面的显着优势，这似乎是构建运动生成模型的一个有前途的方向。然而，将SSMs适应于运动生成面临着障碍，因为缺乏专门的设计架构来模拟运动序列。为了解决这些挑战，我们提出了Motion Mamba，这是一种简单而高效的方法，它利用了SSMs作为运动生成模型的先驱。具体而言，我们设计了一个分层时间Mamba（HTM）块来通过在对称U-Net架构中集成不同数量的隔离SSM模块来处理时间数据，以保持帧之间的运动一致性。我们还设计了一个双向空间Mamba（BSM）块来双向处理潜在姿势，以增强在时间帧内准确的运动生成。与先前最好的基于扩散的方法相比，我们提出的方法在HumanML3D和KIT-ML数据集上实现了高达50％的FID改进和高达4倍的速度提升，这证明了其在高质量长序列运动建模和实时人体运动生成方面的强大能力。请参见项目网站https://steve-zeyu-zhang.github.io/MotionMamba/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决长序列运动生成中的效率和连续性问题，即如何在保持运动连续性的同时，实现高质量的长序列运动生成。
关键思路

论文提出了一种基于状态空间模型（SSMs）的运动生成模型Motion Mamba，其中设计了Hierarchical Temporal Mamba（HTM）块和Bidirectional Spatial Mamba（BSM）块来处理时空数据和潜在姿态，以实现高质量的长序列运动生成。
其它亮点

论文在HumanML3D和KIT-ML数据集上进行了实验，并与之前最佳扩散方法进行了比较，结果表明Motion Mamba在FID上提高了50％，速度提高了4倍。论文提供了开源代码和项目网站。
相关研究

在长序列运动生成领域，最近的相关研究包括：《Dancing to Music: Affective Music Generation for Dance Animation》、《G-SMoE: Group Sparse Modeling of Emotions for Human Emotion Recognition and Synthesis》、《Learning Skeleton-bridged Representations for Emotion Recognition from 3D Human Motions》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问