MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions

简介

Sora的高运动强度和长时间连贯的视频对视频生成领域产生了显著影响，吸引了前所未有的关注。然而，现有的公开可用数据集不足以生成类似Sora的视频，因为它们主要包含运动强度低、简短的视频和简短的字幕。为了解决这些问题，我们提出了MiraData，这是一个高质量的视频数据集，它在视频持续时间、字幕细节、运动强度和视觉质量方面超过了以前的数据集。我们从各种手动选择的来源中策划了MiraData，并精心处理数据以获得语义一致的片段。我们使用GPT-4V来注释结构化字幕，提供了四个不同角度的详细描述以及一个总结的密集字幕。为了更好地评估视频生成中的时间一致性和运动强度，我们引入了MiraBench，它通过添加3D一致性和基于跟踪的运动强度度量来增强现有的基准。MiraBench包括150个评估提示和17个度量，涵盖时间一致性、运动强度、3D一致性、视觉质量、文本-视频对齐和分布相似性。为了展示MiraData的实用性和有效性，我们使用我们的DiT-based视频生成模型MiraDiT进行实验。在MiraBench上的实验结果表明了MiraData的优越性，尤其是在运动强度方面。
图表
解决问题

提出了一个新的高质量视频数据集MiraData，以解决现有数据集在生成高动态强度视频方面的不足。同时，引入了MiraBench，对视频生成模型进行了更全面的评估。
关键思路

通过手动筛选和处理数据，构建了一个高质量视频数据集MiraData，并使用GPT-4V对其进行结构化注释。同时，引入了新的评估指标，包括3D一致性和基于跟踪的运动强度度量。
其它亮点

MiraData数据集包含了高质量、高动态强度和长持续时间的视频，以及从四个不同角度的详细描述和一个总结性的密集描述。MiraBench引入了150个评估提示和17个指标，覆盖了时间一致性、运动强度、3D一致性、视觉质量、文本-视频对齐和分布相似性。作者使用他们的DiT-based视频生成模型MiraDiT进行了实验，并在MiraBench上展示了MiraData的优越性。
相关研究

最近的相关研究包括：1）VideoBERT：A Joint Model for Video and Language Representation Learning；2）CATER: A Diagnostic Dataset for Compositional Actions and Temporal Reasoning；3）TVQA: Localized, Compositional Video Question Answering。

MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions

评论