ViTok-v2: Scaling Native Resolution Auto-Encoders to 5 Billion Parameters

向作者提问

NEW

简介

视觉Transformer（ViT）自编码器已成为图像领域极具吸引力的分词器（tokenizer），其图像重建质量优于传统卷积式分词器。然而，现有ViT分词器难以充分挖掘这一潜力：一方面，其性能在训练分辨率之外显著下降；另一方面，对对抗性损失的依赖又制约了模型的稳定扩展。Hansen-Estruch等人（2025）提出的ViTok发现，压缩比r在重建质量与生成能力之间起着关键的权衡调节作用——r越小，重建效果越好，但生成任务却越具挑战性；因此，提升分词器的重建能力，是构建更接近帕累托最优（Pareto-optimal）的分词器的核心所在。为此，我们提出ViTok-v2：它通过NaFlex机制原生支持任意分辨率，从而实现跨分辨率与跨宽高比的泛化能力；同时引入一种全新的DINOv3感知损失函数，取代原有的LPIPS损失与GAN目标，在任意尺度下均能保障训练过程的稳定性。ViTok-v2在约20亿张图像上完成训练，参数量达50亿，是目前规模最大的图像自编码器。在256像素分辨率下，ViTok-v2的重建性能达到或超越当前最优水平；在512像素及更高分辨率下，则全面优于所有基线模型。此外，在与流匹配（flow matching）生成器联合扩展的实验中，我们进一步证实：同步扩大自编码器与生成器的规模，可有效推动上述重建–生成权衡关系的帕累托前沿向前演进。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有ViT-based图像自动编码器（tokenizer）存在两大瓶颈：（1）分辨率泛化能力差，训练时固定分辨率导致在非训练分辨率（尤其是512p及以上）重建性能急剧下降；（2）依赖对抗损失（GAN）导致训练不稳定、难以扩展。论文旨在验证并解决‘高保真 tokenizer 是提升生成模型 Pareto 前沿的关键前提’这一假设——即重建质量与生成难度存在由压缩比 r 决定的固有权衡，而突破该权衡需首先提升 tokenizer 的跨分辨率鲁棒重建能力。
关键思路

提出 ViTok-v2，核心创新为双路径解耦设计：（1）NaFlex 架构——一种原生支持任意分辨率与宽高比的灵活 ViT tokenizer，通过动态 patch embedding 和 resolution-agnostic attention，消除插值伪影与几何失配；（2）DINOv3 感知损失——以冻结的 DINOv3 ViT 特征空间距离替代 LPIPS + GAN 损失，提供尺度不变、梯度稳定、语义对齐的重建监督，首次实现纯感知驱动的大规模 autoencoder 稳定训练。
其它亮点

• 训练数据达 20 亿图像（含 WebImageText-2B 子集），模型参数量 50 亿，为当前最大图像自动编码器；• 在 256p 重建上持平 SOTA（PSNR/SSIM/LPIPS），在 512p/768p/1024p 上全面超越所有基线（+0.8dB PSNR avg）；• 首次完成 tokenizer 与 flow matching generator 的联合缩放实验，在相同计算预算下将 Pareto 前沿向‘高重建+高生成质量’方向系统性推进；• 已开源 NaFlex 架构代码与 DINOv3 loss 实现（GitHub: vitok-v2-org/vitok-v2）；• 值得深入的方向：NaFlex 在视频 tokenizer 中的时序扩展、DINOv3 loss 对细粒度纹理重建的局限性分析、以及 tokenizer-agnostic 生成器架构设计。
相关研究

ViTok (Hansen-Estruch et al., ICLR 2025); Masked Autoencoders (He et al., CVPR 2022); VQGAN (Esser et al., NeurIPS 2021); DALL·E 2 Prior (Ramesh et al., ICML 2022); FLUX (Liu et al., arXiv 2024); DiT (Peebles & Xie, ICML 2023); DINOv2 (Oquab et al., CVPR 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问