- 简介手绘卡通动画利用素描和平面色块来营造运动的错觉。虽然像CLIP、SVD和Sora等最近的进展通过扩展大型模型和广泛的数据集显示出了理解和生成自然视频的令人印象深刻的结果,但对于卡通动画并不那么有效。通过我们的实证实验,我们认为这种无效性源于手绘卡通中明显的偏见,这种偏见与自然视频的分布不同。我们能否利用扩展范式的成功来促进卡通研究的发展?不幸的是,直到现在,还没有可供探索的大规模卡通数据集。在这项研究中,我们提出了Sakuga-42M数据集,这是第一个大规模的卡通动画数据集。Sakuga-42M包括4200万个关键帧,涵盖各种艺术风格、地区和年份,并具有包括视频文本描述对、动漫标签、内容分类等全面的语义注释。我们通过微调现代基础模型,如Video CLIP、Video Mamba和SVD,展示了这样一个大规模卡通数据集在理解和生成任务上的优异表现。我们的动机是引入大规模化到卡通研究中,并在未来的卡通应用中培养泛化和鲁棒性。数据集、代码和预训练模型将公开发布。
- 图表
- 解决问题本论文旨在解决手绘卡通动画数据集稀缺的问题,提出了Sakuga-42M数据集,并探索利用该数据集对卡通相关任务进行fine-tuning的效果。
- 关键思路本论文的关键思路是利用Sakuga-42M数据集进行卡通动画相关任务的fine-tuning,通过对现有模型的优化和改进,取得了优秀的实验结果。
- 其它亮点Sakuga-42M数据集是第一个大规模的卡通动画数据集,包括4200万个关键帧和丰富的语义注释;论文使用Video CLIP、Video Mamba和SVD等模型对数据集进行fine-tuning,并在卡通相关任务上取得了出色的表现;数据集、代码和预训练模型将公开发布。
- 目前在卡通动画领域的相关研究较少,该论文为该领域的数据集构建和fine-tuning方法提供了新思路。
沙发等你来抢
去评论
评论
沙发等你来抢