- 简介视频生成面临着比图像生成更多的独特挑战。时间维度引入了广泛的可能变化,这些变化可能会违反一致性和连续性。在这项研究中,我们超越了简单动作的评估,认为生成的视频应该像现实世界的视频一样,随着时间的推移,融入新概念的出现和它们之间的关系转换。为了评估视频生成模型的时间复合性,我们提出了TC-Bench,一个精心制作的文本提示、相应的基准真实视频和强大的评估指标。这些提示清晰表达了场景的初始和最终状态,有效地减少了帧开发的歧义,并简化了过渡完成的评估。此外,通过收集与提示相对应的对齐现实世界视频,我们将TC-Bench的适用范围从文本条件模型扩展到可以执行生成帧插值的图像条件模型。我们还开发了新的指标来衡量生成视频中组件转换的完整性,这些指标表现出比现有指标更高的与人类判断的相关性。我们全面的实验结果显示,大多数视频生成器只能实现不到20%的复合变化,凸显了未来改进的巨大空间。我们的分析表明,当前的视频生成模型难以解释复合变化的描述,并在不同时间步骤上合成各种组件。
- 图表
- 解决问题论文旨在解决视频生成中的时间组合问题,即如何在视频生成中实现新概念的出现和它们之间的转换。
- 关键思路通过提出TC-Bench基准测试,使用精心制作的文本提示和对应的真实视频以及新的评估指标,来评估视频生成模型的时间组合能力。同时,开发新的度量标准来衡量生成视频中组件转换的完整性。
- 其它亮点论文的实验结果表明,大多数视频生成器的组合变化不足20%,需要进一步改进。此外,论文还展示了新的评估指标与人类判断的高度相关性,为未来的研究提供了方向。
- 最近的相关研究包括:《Generative Adversarial Networks for Video Generation and Beyond》、《Video Generation from Text》等。
沙发等你来抢
去评论
评论
沙发等你来抢