MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions

2024年07月08日
  • 简介
    Sora的高运动强度和长时间连贯的视频对视频生成领域产生了显著影响,吸引了前所未有的关注。然而,现有的公开可用数据集不足以生成类似Sora的视频,因为它们主要包含运动强度低、简短的视频和简短的字幕。为了解决这些问题,我们提出了MiraData,这是一个高质量的视频数据集,它在视频持续时间、字幕细节、运动强度和视觉质量方面超过了以前的数据集。我们从各种手动选择的来源中策划了MiraData,并精心处理数据以获得语义一致的片段。我们使用GPT-4V来注释结构化字幕,提供了四个不同角度的详细描述以及一个总结的密集字幕。为了更好地评估视频生成中的时间一致性和运动强度,我们引入了MiraBench,它通过添加3D一致性和基于跟踪的运动强度度量来增强现有的基准。MiraBench包括150个评估提示和17个度量,涵盖时间一致性、运动强度、3D一致性、视觉质量、文本-视频对齐和分布相似性。为了展示MiraData的实用性和有效性,我们使用我们的DiT-based视频生成模型MiraDiT进行实验。在MiraBench上的实验结果表明了MiraData的优越性,尤其是在运动强度方面。
  • 图表
  • 解决问题
    提出了一个新的高质量视频数据集MiraData,以解决现有数据集在生成高动态强度视频方面的不足。同时,引入了MiraBench,对视频生成模型进行了更全面的评估。
  • 关键思路
    通过手动筛选和处理数据,构建了一个高质量视频数据集MiraData,并使用GPT-4V对其进行结构化注释。同时,引入了新的评估指标,包括3D一致性和基于跟踪的运动强度度量。
  • 其它亮点
    MiraData数据集包含了高质量、高动态强度和长持续时间的视频,以及从四个不同角度的详细描述和一个总结性的密集描述。MiraBench引入了150个评估提示和17个指标,覆盖了时间一致性、运动强度、3D一致性、视觉质量、文本-视频对齐和分布相似性。作者使用他们的DiT-based视频生成模型MiraDiT进行了实验,并在MiraBench上展示了MiraData的优越性。
  • 相关研究
    最近的相关研究包括:1)VideoBERT:A Joint Model for Video and Language Representation Learning;2)CATER: A Diagnostic Dataset for Compositional Actions and Temporal Reasoning;3)TVQA: Localized, Compositional Video Question Answering。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论