- 简介Sora的高运动强度和长时间连贯的视频对视频生成领域产生了显著影响,吸引了前所未有的关注。然而,现有的公开可用数据集不足以生成类似Sora的视频,因为它们主要包含运动强度低、简短的视频和简短的字幕。为了解决这些问题,我们提出了MiraData,这是一个高质量的视频数据集,它在视频持续时间、字幕细节、运动强度和视觉质量方面超过了以前的数据集。我们从各种手动选择的来源中策划了MiraData,并精心处理数据以获得语义一致的片段。我们使用GPT-4V来注释结构化字幕,提供了四个不同角度的详细描述以及一个总结的密集字幕。为了更好地评估视频生成中的时间一致性和运动强度,我们引入了MiraBench,它通过添加3D一致性和基于跟踪的运动强度度量来增强现有的基准。MiraBench包括150个评估提示和17个度量,涵盖时间一致性、运动强度、3D一致性、视觉质量、文本-视频对齐和分布相似性。为了展示MiraData的实用性和有效性,我们使用我们的DiT-based视频生成模型MiraDiT进行实验。在MiraBench上的实验结果表明了MiraData的优越性,尤其是在运动强度方面。
- 图表
- 解决问题提出了一个新的高质量视频数据集MiraData,以解决现有数据集在生成高动态强度视频方面的不足。同时,引入了MiraBench,对视频生成模型进行了更全面的评估。
- 关键思路通过手动筛选和处理数据,构建了一个高质量视频数据集MiraData,并使用GPT-4V对其进行结构化注释。同时,引入了新的评估指标,包括3D一致性和基于跟踪的运动强度度量。
- 其它亮点MiraData数据集包含了高质量、高动态强度和长持续时间的视频,以及从四个不同角度的详细描述和一个总结性的密集描述。MiraBench引入了150个评估提示和17个指标,覆盖了时间一致性、运动强度、3D一致性、视觉质量、文本-视频对齐和分布相似性。作者使用他们的DiT-based视频生成模型MiraDiT进行了实验,并在MiraBench上展示了MiraData的优越性。
- 最近的相关研究包括:1)VideoBERT:A Joint Model for Video and Language Representation Learning;2)CATER: A Diagnostic Dataset for Compositional Actions and Temporal Reasoning;3)TVQA: Localized, Compositional Video Question Answering。
沙发等你来抢
去评论
评论
沙发等你来抢