- 简介最近互联网规模的视频数据预训练取得了进展,导致了文本到视频生成模型的发展,这些模型可以创建高质量的视频,涵盖广泛的视觉概念和风格。由于它们能够合成逼真的动作和渲染复杂的物体,这些生成模型有潜力成为物理世界的通用模拟器。然而,现有的文本到视频生成模型距离实现这一目标还有多远尚不清楚。因此,我们提出了VideoPhy,这是一个基准测试,旨在评估生成的视频是否遵循真实世界活动的物理常识(例如,当在倾斜的表面上放置弹珠时,它们会滚下去)。具体而言,我们策划了一个包含688个标题的列表,这些标题涉及物理世界中各种材料类型之间的相互作用(例如,固体-固体、固体-流体、流体-流体)。然后,我们从各种最先进的文本到视频生成模型中生成了基于这些标题的视频,包括开放模型(例如VideoCrafter2)和封闭模型(例如Google的Lumiere和Pika)。此外,我们的人类评估表明,现有的模型严重缺乏生成遵循给定文本提示和物理常识的视频的能力。具体而言,表现最佳的模型Pika仅在19.7%的实例中生成遵循标题和物理定律的视频。因此,VideoPhy凸显出视频生成模型远未准确模拟物理世界。最后,我们还使用自动评估器VideoCon-Physics来评估语义遵循性和物理常识。
- 图表
- 解决问题本文旨在评估现有的文本到视频生成模型是否能够生成符合物理常识的视频,并提出了一个评估基准VideoPhy。
- 关键思路通过收集涉及不同物质类型在物理世界中相互作用的文本描述,并使用各种最先进的文本到视频生成模型生成相应的视频,评估这些模型的物理常识能力。
- 其它亮点本文提出了一个新的评估基准VideoPhy,用于评估文本到视频生成模型的物理常识能力。结果表明现有的模型严重缺乏生成符合文本提示和物理定律的视频的能力。此外,作者还补充了一个自动评估器VideoCon-Physics,用于在规模上评估语义的一致性和物理常识。
- 与此相关的研究包括文本到视频生成模型的改进,以及物理常识的建模和应用。例如,文本到视频生成模型的改进包括Vid2Vid、MoCoGAN等。物理常识的建模和应用包括Visual Genome、CLEVR-Ref等。
沙发等你来抢
去评论
评论
沙发等你来抢