PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation

2024年09月27日
  • 简介
    我们提出了PhysGen,一种新颖的图像到视频生成方法,将单个图像和输入条件(例如,施加于图像中物体的力和扭矩)转换为产生逼真、物理上可信和时间上一致的视频。我们的关键洞察力在于将基于模型的物理模拟与数据驱动的视频生成过程相结合,实现了可信的图像空间动态效果。我们系统的核心有三个组成部分:(i)有效捕捉图像几何、材料和物理参数的图像理解模块;(ii)利用刚体物理学和推断参数模拟逼真行为的图像空间动态模拟模型;以及(iii)利用生成式视频扩散的图像渲染和细化模块,产生具有模拟运动的逼真视频素材。由此产生的视频在物理和外观上都非常逼真,并且甚至可以精确控制,通过量化比较和综合用户研究,展示了优于现有数据驱动的图像到视频生成作品的卓越结果。PhysGen生成的视频可以用于各种下游应用,例如将图像转换为逼真的动画或允许用户与图像进行交互并创建各种动态效果。项目页面:https://stevenlsw.github.io/physgen/
  • 图表
  • 解决问题
    论文旨在提出一种新的图像到视频生成方法,能够将单张图像和输入条件转换为逼真、物理上可行且时间上一致的视频。这是否是一个新问题?
  • 关键思路
    论文的关键思路是将基于模型的物理模拟与数据驱动的视频生成过程相结合,从而实现合理的图像空间动态效果。其核心组件包括图像理解模块、基于图像空间的动力学模拟模型和基于图像的渲染和细化模块。
  • 其它亮点
    论文进行了广泛的实验和用户研究,展示了其生成的视频在物理和外观上的逼真程度以及可控性。此外,论文还提供了一个开放的项目页面,以便其他研究人员能够使用其代码和数据集进行更深入的研究。
  • 相关研究
    近期在这个领域中的相关研究包括:"Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis" 和 "Generative Modeling for Small-Data Object Detection"。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问