Music to Dance as Language Translation using Sequence Models

简介

我们引入了MDLT，这是一种新颖的方法，将编舞生成问题作为翻译任务来解决。我们的方法利用现有数据集来学习将音频序列翻译成相应的舞蹈动作姿势。我们提出了两种MDLT变体：一种利用Transformer架构，另一种采用Mamba架构。我们在AIST++和PhantomDance数据集上训练我们的方法，教会机械臂跳舞，但我们的方法也可以应用于全身型机器人。评估指标，包括平均关节误差和Frechet Inception距离，一致表明，当给定一段音乐时，MDLT能够产生逼真且高质量的编舞。代码可在github.com/meowatthemoon/MDLT找到。
图表
解决问题

论文旨在解决音乐与舞蹈之间的关联性问题，即如何利用人工智能生成逼真且高质量的舞蹈。
关键思路

该论文提出了一种新的方法，即将舞蹈生成问题视为一种翻译任务，利用Transformer或Mamba架构将音频序列转化为相应的舞蹈姿势。
其它亮点

论文使用AIST++和PhantomDance数据集对MDLT进行了训练，以教授机械臂跳舞，但该方法也可以应用于全身人形机器人。实验结果表明，MDLT在生成逼真且高质量的舞蹈方面表现出色。代码已经开源。
相关研究

近期的相关研究包括：《DanceNet: 3D Skeleton-based Music-driven Dance Generation with Adversarial Learning》、《Dancing to Music: A Survey on Music-based Action Creation》等。