Tora: Trajectory-oriented Diffusion Transformer for Video Generation

简介

最近的扩散变压器（DiT）技术进展已经展示了在生成高质量视频方面的出色能力。然而，基于变压器的扩散模型在有效生成具有可控动作的视频方面的潜力仍然是一个有限探索的领域。本文介绍了Tora，这是第一个面向轨迹的DiT框架，它同时集成了文本、视觉和轨迹条件来进行视频生成。具体而言，Tora包括轨迹提取器（TE）、时空扩散变压器和运动引导融合器（MGF）。TE使用3D视频压缩网络将任意轨迹编码为分层的时空运动块。MGF将运动块集成到DiT块中，以生成沿轨迹连贯的视频。我们的设计与DiT的可扩展性完美对齐，可以精确控制具有不同持续时间、宽高比和分辨率的视频内容的动态特征。广泛的实验表明，Tora在实现高运动保真度的同时，也精细地模拟了物理世界的运动。该页面位于https://ali-videoai.github.io/tora_video。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在探索基于Transformer的扩散模型在生成具有可控运动的视频方面的潜力，提出了Tora框架来解决这个问题。
关键思路

Tora框架结合了Trajectory Extractor（TE）、Spatial-Temporal DiT和Motion-guidance Fuser（MGF）三个模块，实现了同时集成文本、视觉和轨迹条件的视频生成，具有可扩展性和可控性。
其它亮点

Tora框架在高运动保真度和模拟物理世界运动方面表现出色，实验设计合理，使用了多个数据集，提供了开源代码，值得深入研究。
相关研究

最近的相关研究包括：《Generative Pretraining Transformer for Video Prediction》、《Video Transformer Network》、《Video Generation from Text》等。

Tora: Trajectory-oriented Diffusion Transformer for Video Generation

提问交流

提问交流