VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models

2025年02月04日
  • 简介
    尽管最近取得了巨大进展,生成视频模型仍然难以捕捉现实世界的运动、动态和物理特性。我们发现,这种局限性源于传统的像素重建目标,这一目标使模型偏向于外观保真度,而牺牲了运动的一致性。为了解决这一问题,我们引入了VideoJAM,这是一种新颖的框架,通过鼓励模型学习联合的外观-运动表示,从而赋予视频生成器有效的运动先验。VideoJAM由两个互补的单元组成。在训练过程中,我们将目标扩展为从单一学习表示中预测生成的像素及其对应的运动。在推理过程中,我们引入了内引导机制(Inner-Guidance),该机制通过利用模型自身不断演变的运动预测作为动态引导信号,将生成过程导向一致的运动。值得注意的是,我们的框架可以应用于任何视频模型,并且只需最小的调整,无需对训练数据进行修改或扩大模型规模。VideoJAM在运动一致性方面达到了最先进的性能,超过了高度竞争的专有模型,同时提升了生成视频的视觉质量。这些发现强调了外观和运动可以是互补的,当有效整合时,可以增强视频生成的视觉质量和一致性。项目网站:https://hila-chefer.github.io/videojam-paper.github.io/
  • 图表
  • 解决问题
    该论文试图解决生成式视频模型在捕捉真实世界运动、动态和物理方面的不足。传统的方法侧重于像素重建目标,导致模型更关注外观的保真度而牺牲了运动的一致性。这是一个现有方法中尚未完全解决的问题。
  • 关键思路
    关键思路是引入VideoJAM框架,通过鼓励模型学习联合外观-运动表示来克服这一局限。与以往只注重外观重建不同,VideoJAM扩展了训练目标以同时预测生成的像素及其对应的运动,从而更好地捕捉视频中的运动连贯性。这种方法的新颖之处在于它不仅提高了运动一致性,还增强了视觉质量。
  • 其它亮点
    亮点包括:1) VideoJAM由两个互补单元组成,在训练时预测像素和运动,在推理时通过Inner-Guidance机制引导生成过程;2) 该框架可以应用于任何视频生成模型,仅需最小调整;3) 实验结果表明,VideoJAM在运动一致性方面达到了最先进水平,并且提升了视觉质量;4) 提供了项目网站链接,但未提及代码开源情况。未来研究可以进一步探索如何将此方法应用于更多类型的视频内容或与其他技术结合。
  • 相关研究
    近期相关研究包括:1)《Learning to Generate Long-term Future while Looking at the Past》探讨了通过理解过去帧来预测未来的视频生成;2)《Hierarchical long-term video prediction without supervision》提出了无监督的分层长期视频预测模型;3)《MotionGAN: Learning Joint Embedding of Videos and Sentence Descriptions for Text-to-Video Synthesis》研究了基于文本描述合成视频的技术。这些研究均围绕提高视频生成的质量和连贯性展开,但VideoJAM的独特之处在于其对运动一致性的特别关注。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论