- 简介文本到视频(T2V)生成模型已经有了显著的进展,但是它们将不同的对象、属性、动作和动作组合成视频的能力仍未得到探索。以前的文本到视频基准测试也忽略了这种重要能力的评估。在这项工作中,我们进行了第一次系统研究组合文本到视频生成。我们提出了T2V-CompBench,这是专门针对组合文本到视频生成的第一个基准测试。T2V-CompBench包含了组合性的多个方面,包括一致属性绑定、动态属性绑定、空间关系、动作绑定、对象交互和生成数学能力。我们进一步精心设计了MLLM-based度量、检测-based度量和跟踪-based度量的评估指标,这可以更好地反映出七个提议类别的组合文本到视频生成质量,共有700个文本提示。我们验证了所提出的度量的有效性,与人类评估的相关性也得到了证实。我们还对各种文本到视频生成模型进行了基准测试,并在不同模型和不同组合类别之间进行了深入分析。我们发现,对于当前的模型来说,组合文本到视频生成是非常具有挑战性的,我们希望我们的尝试能为未来的研究方向提供启示。
- 图表
- 解决问题本论文旨在研究文本到视频生成模型在将不同的对象、属性、动作和运动组合成视频方面的能力,并提出了T2V-CompBench作为评估标准。
- 关键思路论文提出了T2V-CompBench作为评估标准,包括一系列的组合能力评估指标,如属性绑定、动态属性绑定、空间关系、动作绑定、物体互动和生成数值等,以更好地反映模型的组合文本到视频生成质量。
- 其它亮点论文提出的评估指标通过与人工评估的相关性验证了其有效性。实验中使用了七个类别的700个文本提示,并对各种文本到视频生成模型进行了深入分析和比较。研究发现,当前模型在组合文本到视频生成方面存在很大挑战。
- 在相关研究方面,最近的一些研究包括:1)文本到视频生成模型的改进,如DALL-E和CLIP;2)视频生成模型的组合能力研究,如CATER和CoDraw。
沙发等你来抢
去评论
评论
沙发等你来抢