- 简介自动编排通过从音乐中生成舞蹈而得以发展。目前的方法只能创建骨架关键点序列,而不能生成完整的舞蹈视频,也不能让特定的人跳舞,限制了它们在现实世界中的使用。这些方法还需要精确的关键点注释,使得数据收集困难,限制了自制视频数据集的使用。为了克服这些挑战,我们引入了一个新的任务:直接从音乐引导的个人图像中生成舞蹈视频。这个任务可以让特定的人生成舞蹈视频,而不需要关键点注释,使它更加多用途和适用于各种情况。我们的解决方案是舞蹈任意节拍扩散模型(DabFusion),它利用参考图像和一首音乐来生成包含各种舞蹈类型和编排的舞蹈视频。音乐由我们特别设计的音乐编码器进行分析,它识别出舞蹈风格、动作和节奏等关键特征。DabFusion在生成舞蹈视频方面表现出色,不仅适用于训练数据集中的个人,还适用于以前从未见过的人。这种多功能性源于它生成潜在光流的方法,其中包含了动画任何人所需的所有运动信息。我们使用AIST++数据集评估了DabFusion的性能,重点关注视频质量、音视频同步和运动音乐对齐。我们提出了一个二维运动音乐对齐分数(2D-MM Align),它建立在节拍对齐分数的基础上,更有效地评估了这个新任务的运动音乐对齐。实验表明,我们的DabFusion为这个创新性任务建立了一个坚实的基础。视频结果可以在我们的项目页面上找到:https://DabFusion.github.io。
- 图表
- 解决问题本论文旨在解决生成舞蹈视频的问题,当前方法只能生成骨架关键点序列,不能生成特定个体的舞蹈视频,需要精确的关键点注释,限制了数据集的使用范围。因此,论文提出了一种新的任务:直接从图像和音乐中生成舞蹈视频,以便于生成特定个体的舞蹈视频,同时不需要关键点注释,提高了数据集的可用性。
- 关键思路该论文提出了一种新的生成舞蹈视频的模型DabFusion,该模型结合了参考图像和音乐,通过生成潜在的光流信息来生成舞蹈视频,从而使得该模型可以生成任何人的舞蹈视频,而不需要关键点注释。
- 其它亮点该论文提出了2D Motion-Music Alignment Score(2D-MM Align)来评估运动和音乐之间的对齐情况,该评估方法比Beat Alignment Score更加有效。实验使用了AIST++数据集,并且在项目页面上公开了视频结果和代码。该模型的创新点在于可以生成特定个体的舞蹈视频,而不需要关键点注释。
- 近期的相关研究包括:《Dance Revolution: Long-term Dance Generation with Music via Curriculum Learning》、《Dance with Melody: An LSTM-autoencoder Approach to Music-oriented Dance Synthesis》等。
沙发等你来抢
去评论
评论
沙发等你来抢