Dance Any Beat: Blending Beats with Visuals in Dance Video Generation

向作者提问

NEW

简介

本文介绍了一种名为DabFusion的舞蹈生成模型，它将音乐作为条件输入，直接从静态图像中创建舞蹈视频，利用了条件图像到视频生成原理。该方法首次将音乐作为图像到视频合成中的条件因素。该方法分为两个阶段：训练自动编码器来预测参考帧和驾驶帧之间的潜在光流，消除了对关节注释的需求；和训练基于U-Net的扩散模型来生成这些潜在光流，由CLAP编码的音乐节奏指导。虽然能够生成高质量的舞蹈视频，但基线模型在节奏对齐方面存在困难。作者通过添加节拍信息来改进模型，提高了同步性。作者引入了2D运动-音乐对齐分数（2D-MM Align）进行定量评估。在AIST++数据集上评估，作者改进后的模型在2D-MM Align分数和其他评估指标上都有显著提高。视频结果可以在作者的项目页面上找到：https://DabFusion.github.io。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决从音乐中生成舞蹈的问题。当前的方法主要产生联合序列，导致输出缺乏直观性，并且由于需要精确的关节注释而使数据收集变得复杂。
关键思路

本文提出了一种名为DabFusion的舞蹈任意节拍扩散模型，它使用音乐作为条件输入，直接从静止图像创建舞蹈视频，利用有条件的图像到视频生成原理。该方法分为两个阶段：训练自动编码器以预测参考帧和驱动帧之间的潜在光流，消除了关节注释的需要；训练基于U-Net的扩散模型以生成这些潜在光流，由CLAP编码的音乐节奏指导。通过添加节拍信息来增强模型，改善了同步性。作者还引入了2D运动-音乐对齐分数（2D-MM Align）进行定量评估。
其它亮点

本文的亮点包括：使用音乐作为条件因素进行图像到视频合成；通过训练自动编码器来消除关节注释的需求；通过添加节拍信息来提高同步性；作者提出了2D运动-音乐对齐分数（2D-MM Align）进行定量评估。在AIST ++数据集上进行评估，增强模型在2D-MM Align分数和其他指标上都有显着提高。作者还提供了项目页面和视频结果。
相关研究

最近在这个领域中，还有一些相关的研究，例如：《基于深度学习的音乐舞蹈生成》、《基于节拍的音乐舞蹈生成》、《音乐视频生成中的基于节拍的动作同步》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问