InfiniMotion: Mamba Boosts Memory in Transformer for Arbitrary Long Motion Generation

2024年07月14日
  • 简介
    文本到动作生成技术在电影、游戏和机器人领域具有潜力,但当前的方法往往优先考虑短时序的动作生成,这使得有效地生成长时序的动作序列具有挑战性:(1)由于计算成本过高,当前的方法难以将长时序动作序列作为单个输入处理;(2)将长时序动作序列的生成分解为较短的片段可能导致不一致的转换,并需要插值或修复缺失部分,这缺乏整个序列建模。为了解决这些挑战,我们提出了InfiniMotion方法,它在自回归框架内生成任意长度的连续动作序列。我们通过生成约80,000帧的连续1小时人体动作,突出了其创新能力。具体地,我们引入了Motion Memory Transformer with Bidirectional Mamba Memory,增强了Transformer的内存,以有效处理长时序动作序列,而不会耗尽计算资源。值得注意的是,我们的方法在FID指标上实现了超过30%的改进,并且演示时长比之前的最先进方法长6倍,展示了长时序动作生成方面的重大进展。请参见项目网页:https://steve-zeyu-zhang.github.io/InfiniMotion/。
  • 图表
  • 解决问题
    解决长动作序列生成的挑战,包括计算成本高和插值/修复等问题。
  • 关键思路
    提出了InfiniMotion方法,使用Motion Memory Transformer with Bidirectional Mamba Memory来处理长动作序列,实现了任意长度的连续动作序列生成。
  • 其它亮点
    InfiniMotion方法在FID上实现了30%的提升,并且演示了连续1小时的人体动作序列生成,共约80,000帧。论文提供了项目网页和开源代码。
  • 相关研究
    与当前最先进的方法相比,InfiniMotion方法实现了更长的动作序列生成。相关研究包括:《MoCoGAN: Decomposing Motion and Content for Video Generation》、《Dance Revolution: Long-Term Dance Generation with Music via Curriculum Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论