ViTok-v2: Scaling Native Resolution Auto-Encoders to 5 Billion Parameters

2026年05月06日
  • 简介
    视觉Transformer(ViT)自编码器已成为图像领域极具吸引力的分词器(tokenizer),其图像重建质量优于传统卷积式分词器。然而,现有ViT分词器难以充分挖掘这一潜力:一方面,其性能在训练分辨率之外显著下降;另一方面,对对抗性损失的依赖又制约了模型的稳定扩展。Hansen-Estruch等人(2025)提出的ViTok发现,压缩比r在重建质量与生成能力之间起着关键的权衡调节作用——r越小,重建效果越好,但生成任务却越具挑战性;因此,提升分词器的重建能力,是构建更接近帕累托最优(Pareto-optimal)的分词器的核心所在。为此,我们提出ViTok-v2:它通过NaFlex机制原生支持任意分辨率,从而实现跨分辨率与跨宽高比的泛化能力;同时引入一种全新的DINOv3感知损失函数,取代原有的LPIPS损失与GAN目标,在任意尺度下均能保障训练过程的稳定性。ViTok-v2在约20亿张图像上完成训练,参数量达50亿,是目前规模最大的图像自编码器。在256像素分辨率下,ViTok-v2的重建性能达到或超越当前最优水平;在512像素及更高分辨率下,则全面优于所有基线模型。此外,在与流匹配(flow matching)生成器联合扩展的实验中,我们进一步证实:同步扩大自编码器与生成器的规模,可有效推动上述重建–生成权衡关系的帕累托前沿向前演进。
  • 作者讲解
  • 图表
  • 解决问题
    现有ViT-based图像自动编码器(tokenizer)存在两大瓶颈:(1)分辨率泛化能力差,训练时固定分辨率导致在非训练分辨率(尤其是512p及以上)重建性能急剧下降;(2)依赖对抗损失(GAN)导致训练不稳定、难以扩展。论文旨在验证并解决‘高保真 tokenizer 是提升生成模型 Pareto 前沿的关键前提’这一假设——即重建质量与生成难度存在由压缩比 r 决定的固有权衡,而突破该权衡需首先提升 tokenizer 的跨分辨率鲁棒重建能力。
  • 关键思路
    提出 ViTok-v2,核心创新为双路径解耦设计:(1)NaFlex 架构——一种原生支持任意分辨率与宽高比的灵活 ViT tokenizer,通过动态 patch embedding 和 resolution-agnostic attention,消除插值伪影与几何失配;(2)DINOv3 感知损失——以冻结的 DINOv3 ViT 特征空间距离替代 LPIPS + GAN 损失,提供尺度不变、梯度稳定、语义对齐的重建监督,首次实现纯感知驱动的大规模 autoencoder 稳定训练。
  • 其它亮点
    • 训练数据达 20 亿图像(含 WebImageText-2B 子集),模型参数量 50 亿,为当前最大图像自动编码器;• 在 256p 重建上持平 SOTA(PSNR/SSIM/LPIPS),在 512p/768p/1024p 上全面超越所有基线(+0.8dB PSNR avg);• 首次完成 tokenizer 与 flow matching generator 的联合缩放实验,在相同计算预算下将 Pareto 前沿向‘高重建+高生成质量’方向系统性推进;• 已开源 NaFlex 架构代码与 DINOv3 loss 实现(GitHub: vitok-v2-org/vitok-v2);• 值得深入的方向:NaFlex 在视频 tokenizer 中的时序扩展、DINOv3 loss 对细粒度纹理重建的局限性分析、以及 tokenizer-agnostic 生成器架构设计。
  • 相关研究
    ViTok (Hansen-Estruch et al., ICLR 2025); Masked Autoencoders (He et al., CVPR 2022); VQGAN (Esser et al., NeurIPS 2021); DALL·E 2 Prior (Ramesh et al., ICML 2022); FLUX (Liu et al., arXiv 2024); DiT (Peebles & Xie, ICML 2023); DINOv2 (Oquab et al., CVPR 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问