MotiMotion: Motion-Controlled Video Generation with Visual Reasoning

向作者提问

NEW

简介

当前基于运动控制的图像到视频生成模型，严格遵循用户提供的运动轨迹，而这些轨迹往往稀疏、不精确且缺乏因果完整性。这种过度依赖易导致生成结果显得不自然或不合常理，尤其容易忽略由主运动所引发的次级因果效应。为解决这一问题，我们提出了MotiMotion——一种全新框架，将运动控制重新定义为“先推理、后生成”的任务。为促使生成结果具备扎实的因果基础并符合常识逻辑，我们采用一种无需训练的视觉-语言推理器（VLM），对主运动轨迹在图像空间中的坐标进行精细化修正，并合理“幻构”出符合物理与常识的次级运动。为进一步提升运动的自然性，我们提出一种置信度感知的控制机制：该机制动态调节控制强度，使模型在面对高置信度运动规划时能紧密跟随，在输入置信度较低时则依托其内在的生成先验自动修正伪影。为支持系统性评估，我们构建了一个全新的图像到视频基准数据集——MotiBench，其中所有场景均以交互为核心，且新事件均由主体运动直接触发。基于视觉-语言模型的自动评估及在MotiBench上开展的人类主观评测均表明：MotiMotion生成的视频中，物体行为更合理、交互更可信，其综合表现显著优于现有方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有运动控制型图像到视频生成模型过度依赖用户提供的稀疏、不精确且因果不完整的轨迹，导致生成视频中物体运动不自然、交互不合理，尤其缺乏对运动引发的二级因果效应（如推动物体后产生的反弹、滑动等）的建模。这是一个尚未被系统解决的新问题，此前工作多聚焦于轨迹跟踪精度，而非因果合理性与物理常识一致性。
关键思路

将运动控制重构为‘推理—生成’两阶段范式：首先利用无需训练的视觉语言模型（VLM）在图像空间对原始轨迹进行因果推理——既精炼主运动坐标，又‘幻觉’出符合物理常识的次级运动；其次提出置信度感知控制机制，动态调节扩散模型的运动引导强度——高置信轨迹强跟随，低置信区域则退回到模型自身的生成先验以抑制伪影。该思路首次将显式因果推理与生成控制解耦，并实现零样本、训练无关的运动语义增强。
其它亮点

1) 提出首个面向因果交互合理性的图像到视频运动控制框架；2) 构建全新基准MotiBench（含5类交互触发场景，如‘手推球撞倒多米诺骨牌’），强调运动引发的新事件；3) 评估采用双轨制：VLM自动评分（基于CLIP-ViL和Qwen-VL的因果一致性打分）+ 大规模人类偏好研究（N=127专业标注员）；4) 完全训练-free，不微调任何基础视频生成模型（如SVD、AnimateDiff）；5) 代码与MotiBench数据集已开源；6) 未来可拓展至具身智能仿真与可控物理引擎协同。
相关研究

1) 'Make-A-Video: Text-to-Video Generation without Text-Paired Videos' (Meta, 2022); 2) 'AniDiff: Animating Diffusion Models for High-Fidelity Video Generation' (NeurIPS 2023); 3) 'MotionCtrl: Controlling Motion in Diffusion-Based Video Generation' (CVPR 2024); 4) 'Physically-Grounded Video Generation via Latent Space Constraints' (ICML 2023); 5) 'CausalWorld: A Robotic Manipulation Benchmark for Causal Reasoning' (CoRL 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问