Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation

简介

最近，人类视频合成的先进技术通过应用稳定的扩散模型实现了高质量视频的生成。然而，现有方法主要集中于仅动画化由姿势信息引导的人类元素（前景），而将背景完全静止。相反，在真实的高质量视频中，背景经常与前景运动协调地动态调整，避免了停滞。我们介绍了一种同时学习前景和背景动态的技术，通过使用不同的运动表示来分离它们的运动。人物角色利用基于姿势的运动进行动画化，捕捉复杂的动作。相反，对于背景，我们采用稀疏的跟踪点来模拟运动，从而反映前景活动和环境变化之间的自然交互。通过在增强了这种创新运动表达方法的真实世界视频上进行训练，我们的模型生成了展现前景和周围环境中协调运动的视频。为了将视频生成进一步扩展到更长的序列而不积累误差，我们采用逐段生成策略，在每个步骤中引入全局特征。为了确保这些片段之间的无缝连续性，我们巧妙地将产生的片段的最后一帧与输入噪声链接，生成接下来的片段，保持叙事流畅。在整个连续生成过程中，我们将初始参考图像的特征表示注入到网络中，有效地减少了可能出现的累积颜色不一致。实证评估证明了我们的方法在产生前景动作和响应背景动态之间和谐互动的视频方面优于先前的方法。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

本文试图解决视频合成中背景缺乏动态变化的问题，提出了一种同时学习前景和背景动态的方法。

关键思路

本文的关键思路是使用不同的运动表示来分别学习前景和背景的动态，前景使用基于姿势的运动表示，背景使用稀疏跟踪点来建模。

其它亮点

本文采用了剪辑生成策略和全局特征来扩展视频生成到更长的序列，并且在生成过程中保持连续性。实验结果表明，该方法可以生成前景和背景动态协调的视频，优于现有方法。

Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation

提问交流

提问交流