Text2Performer: Text-Driven Human Video Generation

解决问题:本文旨在解决文本驱动的人类视频生成问题,即从描述目标演员外观和动作的文本中合成视频序列。相比通用的文本驱动视频生成,人类中心视频生成需要在执行复杂动作的同时保持合成人的外貌。

关键思路:本文提出了Text2Performer,通过两个新的设计来生成具有关节运动的生动人类视频:1)分解人类表示和2)基于扩散的运动采样器。首先,利用人类视频的特性,以无监督的方式将VQVAE潜在空间分解为人类外观和姿势表示。然后,提出了连续VQ-diffuser来采样一系列姿势嵌入。最后,设计了运动感知遮蔽策略,以增强时间上的一致性。

作者:Yuming Jiang 、Shuai Yang Tong 、Liang Koh、 Wayne Wu、Chen Change Loy、 Ziwei Liu

其他亮点:为了促进文本驱动的人类视频生成任务,作者贡献了一个带有手动注释的动作标签和文本描述的Fashion-Text2Video数据集。广泛的实验表明,Text2Performer生成高质量的人类视频(最高512x256分辨率),外观多样,动作灵活。

关于作者:本文的主要作者是姜宇明、杨帅、柯泽伟,他们分别来自新加坡国立大学和腾讯AI Lab。姜宇明之前的代表作包括“Text2Scene: Generating Compositional Scenes from Textual Descriptions”和“Text2Shape: Generating Shapes from Natural Language by Learning Joint Embeddings”。

相关研究:最近的相关研究包括“Text-based Editing of Talking-head Video”(Wenzheng Chen等,CMU)和“Few-Shot Video-to-Video Synthesis”(Ting-Chun Wang等,NVIDIA)。

论文摘要:本文研究了基于文本生成人物视频的任务,即从描述目标表演者外观和动作的文本中合成视频序列。相对于通常的文本驱动视频生成,以人为中心的视频生成需要在表现复杂动作的同时保持合成人物的外观。本文提出了Text2Performer来从文本生成具有关节动作的生动人物视频,其中包括两个新颖的设计:1)分解人物表示和2)基于扩散的运动采样器。

首先,利用人类视频的特性,我们以无监督的方式将VQVAE潜空间分解为人物外观和姿势表示,从而在生成的帧中维护外观。然后,我们提出了连续的VQ扩散器来采样一系列姿势嵌入。与现有的基于VQ的方法不同,连续的VQ扩散器直接输出连续的姿势嵌入,以更好地建模运动。最后,我们设计了运动感知的遮罩策略,以在时空上遮盖姿势嵌入,以增强时序一致性。此外,为了促进基于文本生成人物视频的任务,我们提供了一个手动注释的Fashion-Text2Video数据集,包括动作标签和文本描述。广泛的实验表明,Text2Performer可以生成具有多样外观和灵活运动的高质量人物视频(高达512x256分辨率)。

内容中包含的图片若涉及版权问题,请及时与我们联系删除