SkyScript-100M: 1,000,000,000 Pairs of Scripts and Shooting Scripts for Short Drama

2024年08月18日
  • 简介
    生成包含场景和镜头语言等信息的高质量拍摄剧本对于短剧本的生成至关重要。我们从互联网上收集了6,660个受欢迎的短剧集,每个剧集平均有100个短剧集,总共的短剧集数量约为80,000个,总时长约为2,000小时,总共占用10TB的存储空间。我们对每个剧集进行关键帧提取和注释,得到了约10,000,000个拍摄剧本。我们基于我们自主开发的大型短剧本生成模型SkyReels对提取的拍摄剧本进行了100次脚本恢复。这导致了一个包含1,000,000,000对短剧本和拍摄剧本的数据集,称为SkyScript-100M。我们详细比较了SkyScript-100M和现有数据集,并展示了基于SkyScript-100M可以实现的一些更深入的洞见。基于SkyScript-100M,研究人员可以实现几个更深入和更具前瞻性的脚本优化目标,这可能引领整个文本到视频领域的范式转变,并显著推进短剧视频生成领域的发展。数据和代码可在https://github.com/vaew/SkyScript-100M上获得。
  • 图表
  • 解决问题
    本论文旨在解决短剧本生成中的关键帧提取和注释问题,通过自主开发的短剧生成模型SkyReels,生成了包含10亿对脚本和拍摄脚本的数据集SkyScript-100M,并提出了一些深入优化脚本的目标。
  • 关键思路
    本论文的关键思路是通过提取和注释关键帧,以及使用自主开发的短剧生成模型SkyReels,生成大规模的脚本和拍摄脚本对,并在此基础上实现更深入和更远-reaching的脚本优化目标。
  • 其它亮点
    本论文使用了包含6,660个热门短剧的数据集,提取和注释了10,000,000个关键帧,生成了包含10亿对脚本和拍摄脚本的数据集SkyScript-100M。此外,作者提出了一些深入优化脚本的目标,为短剧视频生成领域带来了新的思路。作者还开源了数据集和代码,方便其他研究人员使用和进一步研究。
  • 相关研究
    在这个领域中,最近还有一些相关的研究,例如《Neural Script to Video Generation with Diversity》、《Text-to-Video Generation Grounded by Fine-Grained Semantic Scene Descriptions》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论