- 简介随着训练数据规模、模型大小和计算成本的扩展,视频生成在数字创作领域取得了令人印象深刻的结果,使用户能够在各个领域展现创造力。近期,大语言模型(LLMs)的研究人员将这种扩展应用到了推理阶段,通过增加推理时的计算量显著提升了模型性能。与通过高昂的训练成本来扩展视频基础模型不同,我们探索了测试时扩展(Test-Time Scaling, TTS)在视频生成中的潜力,旨在回答以下问题:如果允许视频生成模型使用非平凡的推理计算资源,它在面对具有挑战性的文本提示时能多大程度提升生成质量。 在这项工作中,我们将视频生成的测试时扩展重新解读为一个搜索问题,即从高斯噪声空间中采样出更优的轨迹以接近目标视频分布。具体而言,我们通过构建测试时验证器来提供反馈,并设计启发式算法来引导搜索过程。给定一个文本提示,我们首先尝试了一种直观的线性搜索策略,即在推理阶段增加噪声候选样本的数量。然而,由于对所有帧同时进行全步去噪需要极高的测试时计算成本,我们进一步设计了一种更高效的TTS方法——帧树(Tree-of-Frames, ToF),该方法以自回归的方式自适应地扩展和剪枝视频分支。 我们在基于文本条件的视频生成基准上进行了大量实验,结果表明,增加测试时计算量能够持续显著提升生成视频的质量。项目页面:https://liuff19.github.io/Video-T1
- 图表
- 解决问题该论文试图解决如何在不增加训练成本的情况下,通过测试时计算资源的扩展来提升视频生成模型的质量。这是一个新颖的问题,专注于利用推理阶段的计算能力而非传统的模型训练扩展。
- 关键思路论文提出了一种名为Test-Time Scaling (TTS) 的方法,将视频生成中的测试时扩展重新定义为搜索问题。具体来说,通过从高斯噪声空间中采样更好的轨迹,并结合测试时验证器和启发式算法引导搜索过程。此外,还设计了一种更高效的 TTS 方法 Tree-of-Frames (ToF),以自回归方式动态扩展和修剪视频分支,从而减少计算开销。
- 其它亮点1. 提出了线性搜索策略和 Tree-of-Frames 方法,显著提升了文本条件下的视频生成质量;2. 在多个基准数据集上进行了广泛的实验,证明了增加测试时计算资源的一致性改进效果;3. 提供了一个项目页面(https://liuff19.github.io/Video-T1),但未明确提及代码是否开源;4. 值得进一步研究的方向包括优化 ToF 算法效率以及探索更多复杂的搜索策略。
- 相关研究包括:1. 大型语言模型(LLMs)领域的 Test-Time Adaptation 和 Prompt Engineering 技术,这些技术同样关注推理阶段的性能提升;2. 视频生成领域的扩散模型(Diffusion Models)和生成对抗网络(GANs);3. 近期关于高效采样方法的研究,例如《Efficient Sampling Strategies for Video Diffusion Models》和《Autoregressive Video Generation with Latent Space Optimization》。
沙发等你来抢
去评论
评论
沙发等你来抢