Video-T1: Test-Time Scaling for Video Generation

简介

随着训练数据规模、模型大小和计算成本的扩展，视频生成在数字创作领域取得了令人印象深刻的结果，使用户能够在各个领域展现创造力。近期，大语言模型（LLMs）的研究人员将这种扩展应用到了推理阶段，通过增加推理时的计算量显著提升了模型性能。与通过高昂的训练成本来扩展视频基础模型不同，我们探索了测试时扩展（Test-Time Scaling, TTS）在视频生成中的潜力，旨在回答以下问题：如果允许视频生成模型使用非平凡的推理计算资源，它在面对具有挑战性的文本提示时能多大程度提升生成质量。在这项工作中，我们将视频生成的测试时扩展重新解读为一个搜索问题，即从高斯噪声空间中采样出更优的轨迹以接近目标视频分布。具体而言，我们通过构建测试时验证器来提供反馈，并设计启发式算法来引导搜索过程。给定一个文本提示，我们首先尝试了一种直观的线性搜索策略，即在推理阶段增加噪声候选样本的数量。然而，由于对所有帧同时进行全步去噪需要极高的测试时计算成本，我们进一步设计了一种更高效的TTS方法——帧树（Tree-of-Frames, ToF），该方法以自回归的方式自适应地扩展和剪枝视频分支。我们在基于文本条件的视频生成基准上进行了大量实验，结果表明，增加测试时计算量能够持续显著提升生成视频的质量。项目页面：https://liuff19.github.io/Video-T1
图表
解决问题

该论文试图解决如何在不增加训练成本的情况下，通过测试时计算资源的扩展来提升视频生成模型的质量。这是一个新颖的问题，专注于利用推理阶段的计算能力而非传统的模型训练扩展。
关键思路

论文提出了一种名为Test-Time Scaling (TTS) 的方法，将视频生成中的测试时扩展重新定义为搜索问题。具体来说，通过从高斯噪声空间中采样更好的轨迹，并结合测试时验证器和启发式算法引导搜索过程。此外，还设计了一种更高效的 TTS 方法 Tree-of-Frames (ToF)，以自回归方式动态扩展和修剪视频分支，从而减少计算开销。
其它亮点

1. 提出了线性搜索策略和 Tree-of-Frames 方法，显著提升了文本条件下的视频生成质量；2. 在多个基准数据集上进行了广泛的实验，证明了增加测试时计算资源的一致性改进效果；3. 提供了一个项目页面（https://liuff19.github.io/Video-T1），但未明确提及代码是否开源；4. 值得进一步研究的方向包括优化 ToF 算法效率以及探索更多复杂的搜索策略。
相关研究

相关研究包括：1. 大型语言模型（LLMs）领域的 Test-Time Adaptation 和 Prompt Engineering 技术，这些技术同样关注推理阶段的性能提升；2. 视频生成领域的扩散模型（Diffusion Models）和生成对抗网络（GANs）；3. 近期关于高效采样方法的研究，例如《Efficient Sampling Strategies for Video Diffusion Models》和《Autoregressive Video Generation with Latent Space Optimization》。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论