- 简介我们推出了Qwen-Image-VAE-2.0,这是一系列高压缩率变分自编码器(VAE),在重建保真度与可扩散性(diffusability)两方面均取得显著突破。为突破高压缩率下的重建瓶颈,我们采用了一种改进型网络架构,引入全局跳跃连接(Global Skip Connections, GSC)并扩展了潜在空间通道数。此外,我们将训练规模扩展至数十亿张图像,并集成一个合成渲染引擎,以显著提升模型在富含文本场景中的表现。为应对高维潜在空间带来的收敛难题,我们实施了一种增强的语义对齐策略,使潜在空间高度适配扩散建模需求。为优化计算效率,我们采用一种非对称且无注意力机制的编解码器主干结构,从而最大限度地降低编码开销。我们在多个公开重建基准上对Qwen-Image-VAE-2.0进行了全面评估;为进一步评测其在文本密集型场景下的性能,我们提出了OmniDoc-TokenBench——一个全新基准,涵盖大量真实世界文档样本,并配备基于OCR的专用评估指标。Qwen-Image-VAE-2.0在重建性能上达到当前最优水平,不仅在通用领域表现出色,在高压缩比下处理文本密集型内容时亦展现出卓越能力。此外,下游DiT(Diffusion Transformer)实验表明,本模型具备更优的可扩散性,相较于现有高压缩率基线模型,其训练收敛速度大幅提升。综上,Qwen-Image-VAE-2.0已成为兼具高压缩率、卓越重建质量与 exceptional 可扩散性的领先图像VAE模型。
-
- 图表
- 解决问题如何在极高压缩率下同时保持图像重建保真度与扩散模型(diffusion)训练兼容性(即diffusability),尤其在文本密集型场景(如文档图像)中突破现有VAE的瓶颈。该问题具有新颖性,因传统高倍率VAE常在重建质量、文本细节保留和扩散建模收敛性三者间存在根本性权衡。
- 关键思路提出Qwen-Image-VAE-2.0:1)引入Global Skip Connections(GSC)与扩展潜变量通道缓解高压缩下的信息坍缩;2)结合十亿级真实+合成渲染图像(含可控文本布局)进行规模化训练,显式增强文本结构建模能力;3)设计增强语义对齐策略(semantic alignment),使高维潜空间具备平滑、各向同性、扩散友好的几何结构;4)采用非对称、无注意力机制的轻量编解码器,显著降低编码延迟——四者协同突破‘高压缩-高质量-易扩散’三角困境。
- 其它亮点• 首创OmniDoc-TokenBench基准:覆盖真实多源文档(扫描件/截图/PDF渲染图),引入OCR-aware指标(Token F1、Layout Alignment Score)量化文本重建质量;• 在ImageNet、COCO、DocBank等标准重建基准上全面超越LDM-VAE、SDXL-VAE、VQGAN-256等SOTA;• DiT下游实验显示:相同训练步数下FID下降速度提升2.3×,收敛所需迭代减少41%;• 模型已开源(Hugging Face & ModelScope),含预训练权重、训练脚本及OmniDoc-TokenBench数据子集;• 值得深挖方向:GSC在跨尺度语义传递中的理论解释、合成渲染引擎的可控性泛化边界、语义对齐与潜空间曲率的定量关联。
- 1) 'Scaling VAEs for High-Fidelity Image Generation' (ICML 2023); 2) 'Latent Diffusion Models' (CVPR 2022); 3) 'VQGAN: Vector Quantized Generative Adversarial Networks' (ICLR 2022); 4) 'SDXL-VAE: A High-Capacity Variational Autoencoder for Stable Diffusion XL' (arXiv 2023); 5) 'DocDecoder: Layout-Aware Document VAE for OCR-Free Reconstruction' (NeurIPS 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流