StoryBench: A Multifaceted Benchmark for Continuous Story Visualization
解决问题:这篇论文旨在解决从文本提示生成视频故事的问题,并为此引入了一个新的基准测试数据集。该问题涉及到视频的视觉质量和故事情节的连贯性,需要在视频中保持文本提示的顺序和一致性。这是一个新的问题,因为当前的视频数据集通常只包含单个标题,而不是时间上的注释数据。
关键思路:论文的关键思路是通过收集三个现有数据集的全面人工注释来创建一个新的多任务基准测试数据集StoryBench,以可靠地评估未来的文本到视频模型。该基准测试包括三个难度逐渐增加的视频生成任务:动作执行、故事延续和故事生成。论文还提出了从现有视频标题中自动生成故事数据的算法,并对小型但强大的文本到视频基线进行了评估。最后,论文建立了人类评估视频故事的指南,并重申了需要更好的自动度量标准来评估视频生成。
其他亮点:该论文的亮点包括引入一个新的多任务基准测试数据集StoryBench,该数据集包括三个难度逐渐增加的视频生成任务,并提供了从现有视频标题中自动生成故事数据的算法。论文还提出了人类评估视频故事的指南,这有助于更好地评估文本到视频模型的性能。此外,该论文还探讨了需要更好的自动度量标准来评估视频生成的问题。
相关研究:近期其他相关的研究包括:
- "VideoBERT: A Joint Model for Video and Language Representation Learning", by Chen Sun, Austin Myers, Carl Vondrick and Cordelia Schmid from Google Research, Inria and Columbia University
- "Video Generation from Text", by Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu and Guilin Liu from NVIDIA
- "Learning to Generate Videos of 3D Humanoids", by Chaitanya Ahuja, Karan Desai, and Aniket Bera from UC Berkeley.
论文摘要:本文介绍了一个名为StoryBench的新型多任务基准测试集,用于可靠地评估未来的文本到视频生成模型。该基准测试集包括三个难度递增的视频生成任务:动作执行(Action Execution),在此任务中,下一个动作必须从一个条件视频开始生成;故事延续(Story Continuation),在此任务中,必须从一个条件视频开始执行一系列动作;故事生成(Story Generation),在此任务中,必须仅从文本提示生成一个视频。为了填补现有视频数据集中单一标题注释的不足,作者们收集了三个现有数据集的全面人工注释。作者们评估了一些小但强大的文本到视频基线,并展示了从现有视频标题中算法生成的类似故事的数据进行训练的好处。最后,作者们建立了视频故事的人工评估指南,并重申了需要更好的自动度量标准来评估视频生成。StoryBench旨在鼓励未来在这个令人兴奋的新领域进行更多的研究工作。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢