随着训练数据规模、模型大小和计算成本的扩展,视频生成在数字创作领域取得了令人印象深刻的结果,使用户能够在各个领域展现创造力。近期,大语言模型(LLMs)的研究人员将这种扩展应用到了推理阶段,通过增加推理时的计算量显著提升了模型性能。与通过高昂的训练成本来扩展视频基础模型不同,我们探索了测试时扩展(Test-Time Scaling, TTS)在视频生成中的潜力,旨在回答以下问题:如果允许视频生成模型使用非平凡的推理计算资源,它在面对具有挑战性的文本提示时能多大程度提升生成质量。
在这项工作中,我们将视频生成的测试时扩展重新解读为一个搜索问题,即从高斯噪声空间中采样出更优的轨迹以接近目标视频分布。具体而言,我们通过构建测试时验证器来提供反馈,并设计启发式算法来引导搜索过程。给定一个文本提示,我们首先尝试了一种直观的线性搜索策略,即在推理阶段增加噪声候选样本的数量。然而,由于对所有帧同时进行全步去噪需要极高的测试时计算成本,我们进一步设计了一种更高效的TTS方法——帧树(Tree-of-Frames, ToF),该方法以自回归的方式自适应地扩展和剪枝视频分支。
我们在基于文本条件的视频生成基准上进行了大量实验,结果表明,增加测试时计算量能够持续显著提升生成视频的质量。项目页面:https://liuff19.github.io/Video-T1