- 简介最近的扩散变压器(DiT)技术进展已经展示了在生成高质量视频方面的出色能力。然而,基于变压器的扩散模型在有效生成具有可控动作的视频方面的潜力仍然是一个有限探索的领域。本文介绍了Tora,这是第一个面向轨迹的DiT框架,它同时集成了文本、视觉和轨迹条件来进行视频生成。具体而言,Tora包括轨迹提取器(TE)、时空扩散变压器和运动引导融合器(MGF)。TE使用3D视频压缩网络将任意轨迹编码为分层的时空运动块。MGF将运动块集成到DiT块中,以生成沿轨迹连贯的视频。我们的设计与DiT的可扩展性完美对齐,可以精确控制具有不同持续时间、宽高比和分辨率的视频内容的动态特征。广泛的实验表明,Tora在实现高运动保真度的同时,也精细地模拟了物理世界的运动。该页面位于https://ali-videoai.github.io/tora_video。
-
- 图表
- 解决问题论文旨在探索基于Transformer的扩散模型在生成具有可控运动的视频方面的潜力,提出了Tora框架来解决这个问题。
- 关键思路Tora框架结合了Trajectory Extractor(TE)、Spatial-Temporal DiT和Motion-guidance Fuser(MGF)三个模块,实现了同时集成文本、视觉和轨迹条件的视频生成,具有可扩展性和可控性。
- 其它亮点Tora框架在高运动保真度和模拟物理世界运动方面表现出色,实验设计合理,使用了多个数据集,提供了开源代码,值得深入研究。
- 最近的相关研究包括:《Generative Pretraining Transformer for Video Prediction》、《Video Transformer Network》、《Video Generation from Text》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流