- 简介本文介绍了一种名为DabFusion的舞蹈生成模型,它将音乐作为条件输入,直接从静态图像中创建舞蹈视频,利用了条件图像到视频生成原理。该方法首次将音乐作为图像到视频合成中的条件因素。该方法分为两个阶段:训练自动编码器来预测参考帧和驾驶帧之间的潜在光流,消除了对关节注释的需求;和训练基于U-Net的扩散模型来生成这些潜在光流,由CLAP编码的音乐节奏指导。虽然能够生成高质量的舞蹈视频,但基线模型在节奏对齐方面存在困难。作者通过添加节拍信息来改进模型,提高了同步性。作者引入了2D运动-音乐对齐分数(2D-MM Align)进行定量评估。在AIST++数据集上评估,作者改进后的模型在2D-MM Align分数和其他评估指标上都有显著提高。视频结果可以在作者的项目页面上找到:https://DabFusion.github.io。
-
- 图表
- 解决问题本文旨在解决从音乐中生成舞蹈的问题。当前的方法主要产生联合序列,导致输出缺乏直观性,并且由于需要精确的关节注释而使数据收集变得复杂。
- 关键思路本文提出了一种名为DabFusion的舞蹈任意节拍扩散模型,它使用音乐作为条件输入,直接从静止图像创建舞蹈视频,利用有条件的图像到视频生成原理。该方法分为两个阶段:训练自动编码器以预测参考帧和驱动帧之间的潜在光流,消除了关节注释的需要;训练基于U-Net的扩散模型以生成这些潜在光流,由CLAP编码的音乐节奏指导。通过添加节拍信息来增强模型,改善了同步性。作者还引入了2D运动-音乐对齐分数(2D-MM Align)进行定量评估。
- 其它亮点本文的亮点包括:使用音乐作为条件因素进行图像到视频合成;通过训练自动编码器来消除关节注释的需求;通过添加节拍信息来提高同步性;作者提出了2D运动-音乐对齐分数(2D-MM Align)进行定量评估。在AIST ++数据集上进行评估,增强模型在2D-MM Align分数和其他指标上都有显着提高。作者还提供了项目页面和视频结果。
- 最近在这个领域中,还有一些相关的研究,例如:《基于深度学习的音乐舞蹈生成》、《基于节拍的音乐舞蹈生成》、《音乐视频生成中的基于节拍的动作同步》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流