MotiMotion: Motion-Controlled Video Generation with Visual Reasoning

2026年05月21日
  • 简介
    当前基于运动控制的图像到视频生成模型,严格遵循用户提供的运动轨迹,而这些轨迹往往稀疏、不精确且缺乏因果完整性。这种过度依赖易导致生成结果显得不自然或不合常理,尤其容易忽略由主运动所引发的次级因果效应。为解决这一问题,我们提出了MotiMotion——一种全新框架,将运动控制重新定义为“先推理、后生成”的任务。为促使生成结果具备扎实的因果基础并符合常识逻辑,我们采用一种无需训练的视觉-语言推理器(VLM),对主运动轨迹在图像空间中的坐标进行精细化修正,并合理“幻构”出符合物理与常识的次级运动。为进一步提升运动的自然性,我们提出一种置信度感知的控制机制:该机制动态调节控制强度,使模型在面对高置信度运动规划时能紧密跟随,在输入置信度较低时则依托其内在的生成先验自动修正伪影。为支持系统性评估,我们构建了一个全新的图像到视频基准数据集——MotiBench,其中所有场景均以交互为核心,且新事件均由主体运动直接触发。基于视觉-语言模型的自动评估及在MotiBench上开展的人类主观评测均表明:MotiMotion生成的视频中,物体行为更合理、交互更可信,其综合表现显著优于现有方法。
  • 作者讲解
  • 图表
  • 解决问题
    现有运动控制型图像到视频生成模型过度依赖用户提供的稀疏、不精确且因果不完整的轨迹,导致生成视频中物体运动不自然、交互不合理,尤其缺乏对运动引发的二级因果效应(如推动物体后产生的反弹、滑动等)的建模。这是一个尚未被系统解决的新问题,此前工作多聚焦于轨迹跟踪精度,而非因果合理性与物理常识一致性。
  • 关键思路
    将运动控制重构为‘推理—生成’两阶段范式:首先利用无需训练的视觉语言模型(VLM)在图像空间对原始轨迹进行因果推理——既精炼主运动坐标,又‘幻觉’出符合物理常识的次级运动;其次提出置信度感知控制机制,动态调节扩散模型的运动引导强度——高置信轨迹强跟随,低置信区域则退回到模型自身的生成先验以抑制伪影。该思路首次将显式因果推理与生成控制解耦,并实现零样本、训练无关的运动语义增强。
  • 其它亮点
    1) 提出首个面向因果交互合理性的图像到视频运动控制框架;2) 构建全新基准MotiBench(含5类交互触发场景,如‘手推球撞倒多米诺骨牌’),强调运动引发的新事件;3) 评估采用双轨制:VLM自动评分(基于CLIP-ViL和Qwen-VL的因果一致性打分)+ 大规模人类偏好研究(N=127专业标注员);4) 完全训练-free,不微调任何基础视频生成模型(如SVD、AnimateDiff);5) 代码与MotiBench数据集已开源;6) 未来可拓展至具身智能仿真与可控物理引擎协同。
  • 相关研究
    1) 'Make-A-Video: Text-to-Video Generation without Text-Paired Videos' (Meta, 2022); 2) 'AniDiff: Animating Diffusion Models for High-Fidelity Video Generation' (NeurIPS 2023); 3) 'MotionCtrl: Controlling Motion in Diffusion-Based Video Generation' (CVPR 2024); 4) 'Physically-Grounded Video Generation via Latent Space Constraints' (ICML 2023); 5) 'CausalWorld: A Robotic Manipulation Benchmark for Causal Reasoning' (CoRL 2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问