Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation

解决问题:该论文旨在解决文本引导的人体运动生成问题,尤其是在大规模图像文本数据集上生成更多样化的姿势和提示。该问题在某种程度上是一个新问题。

关键思路:该论文提出了Make-An-Animation,一个文本条件的人体运动生成模型。该模型通过两个阶段的训练实现:第一阶段在大规模图像文本数据集上训练,第二阶段在运动捕捉数据上进行微调。与现有的扩散模型不同,Make-An-Animation使用了类似于最近的文本到视频生成模型的U-Net架构。相比当前领域的研究,该论文的思路在使用大规模数据集和U-Net架构方面有新意。

其他亮点:该论文在人体运动生成方面取得了最新的进展,并在真实性和对输入文本的对齐度方面达到了最新的性能。该论文使用了大规模图像文本数据集和运动捕捉数据集进行训练,并使用了U-Net架构进行模型设计。该论文没有提供开源代码,但是提供了与其他方法的比较实验。值得深入研究的是如何将大规模图像文本数据集用于文本引导的人体运动生成。

关于作者:主要作者Samaneh Azadi、Akbar Shah、Thomas Hayes、Devi Parikh和Sonal Gupta来自美国乔治亚理工学院和亚特兰大市的Facebook AI Research团队。他们之前的代表作包括:Azadi等人的“Multi-Content GAN for Few-Shot Font Style Transfer”和Parikh等人的“Interactively Learning to See and Act”.

相关研究:近期的相关研究包括:“Text2Gif: Generating Animated GIFs from Descriptive Text”(作者:Shuyang Sun、Wenbo Li、Wei Liang、Wei Wu、Yueting Zhuang;机构:浙江大学)和“Text2Scene: Generating Compositional Scenes from Textual Descriptions”(作者:Yikang Li、Dengpan Fu、Lingxi Xie、Jun Zhu;机构:清华大学)。

论文摘要:本文介绍了一种文本条件的人体动作生成模型——Make-An-Animation,它能够从大规模的图像-文本数据集中学习更多样化的姿势和提示,从而在性能上显著提高。Make-An-Animation分为两个阶段进行训练:首先在一个精心筛选的大规模数据集上进行训练,该数据集包含从图像-文本数据集中提取的(文本,静态伪姿势)对;然后在动作捕捉数据上进行微调,添加额外的层来建模时间维度。与先前的扩散模型不同,Make-An-Animation使用了类似于最近的文本到视频生成模型的U-Net架构。人类对运动逼真度和与输入文本的对齐情况的评估表明,我们的模型在文本到动作生成方面达到了最先进的性能水平。

内容中包含的图片若涉及版权问题,请及时与我们联系删除