- 简介自回归(AR)视频生成模型依赖于视频标记器(video tokenizer),后者将像素压缩为离散的标记序列。这些标记序列的长度对于在重建质量与下游生成任务的计算开销之间取得平衡至关重要。传统的视频标记器对不同视频的时间片段采用统一的标记分配策略,往往在简单、静态或重复性较强的片段上浪费大量标记,却在动态性强或内容复杂的片段上分配不足,导致资源利用低效。为解决这一问题,我们提出了 **EVATok** 框架,即一种用于构建**高效**、**视频自适应**标记器(**E**fficient **V**ideo **A**daptive **Tok**enizer)的系统化方法。该框架首先针对每段视频估计其最优的标记分配方案,以实现重建质量与计算成本之间的最佳权衡;其次,设计轻量级路由模块(lightweight routers),以快速预测各视频所需的最优标记分配;最后,训练可自适应的标记器,使其依据路由模块所预测的分配方案对视频进行编码。实验表明,EVATok 在视频重建及下游自回归生成任务中,显著提升了整体效率与生成质量。进一步地,借助我们提出的先进训练范式——该范式融合了视频语义编码器(video semantic encoders)——EVATok 在 UCF-101 数据集上实现了更优的视频重建效果,并在“类别到视频”(class-to-video)生成任务中达到当前最优水平(state-of-the-art);相比此前最先进的 LARP 方法以及我们自身设定固定长度标记的基线模型,EVATok 平均标记使用量至少降低了 24.4%。
-
- 图表
- 解决问题传统视频自回归生成模型依赖固定长度的视频分词器(tokenizer),对所有视频片段均匀分配离散token数量,导致静态/重复区域浪费token、动态/复杂区域token不足,损害重建质量与生成效率的平衡。这是一个尚未被系统解决的实际部署瓶颈问题。
- 关键思路提出EVATok框架——首次将token分配建模为视频自适应的轻量级优化问题:1)基于视频语义与运动复杂度估计每段最优token数;2)训练超轻量级路由器(router)实时预测该分配;3)联合训练可变长编码器,使tokenizer真正按需压缩。核心新意在于将‘token budget分配’显式建模为可学习、可泛化的条件决策过程,而非固定或启发式策略。
- 其它亮点在UCF-101上实现SOTA类到视频生成性能;相比LARP和固定长度基线,平均token使用减少24.4%;引入视频语义编码器(如VideoMAE特征)指导路由器训练;端到端可微、无需额外推理开销;论文未提代码开源,但方法模块化、训练recipe清晰(含两阶段路由蒸馏与tokenizer联合优化);值得深入的方向包括:扩展至长视频时空分层路由、与扩散模型tokenization协同、硬件感知token预算约束优化。
- LARP: Latent Auto-Regressive Pretraining for Video Generation (ICML 2023); TokenLearner: Adaptive Token Learning for Vision Transformers (NeurIPS 2021); VQGAN: High-Resolution Image Synthesis with Latent Diffusion Models (CVPR 2022); Motion-Aware Tokenization for Efficient Video Transformers (ECCV 2022); Adaptive Video Compression via Rate-Distortion Optimized Token Pruning (ICLR 2024 Workshop)


提问交流