Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

简介

本文介绍了一种名为Meissonic的图像生成模型，它采用了非自回归遮蔽图像建模（MIM）方法，并通过引入一系列创新架构、先进的位置编码策略和优化的采样条件，实现了与SDXL等最先进扩散模型相当的水平。此外，该模型还利用高质量的训练数据，结合人类偏好得分信息，采用特征压缩层进一步提高图像保真度和分辨率。通过大量实验验证，该模型不仅与现有的模型如SDXL相匹配，而且在生成高质量、高分辨率图像方面往往表现更好。研究人员还发布了一个模型检查点，能够生成$1024 \times 1024$分辨率的图像。这一研究成果表明，Meissonic有望成为文本到图像综合的新标准。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本文旨在通过提出一种新的非自回归掩蔽图像建模（MIM）方法，名为Meissonic，来解决文本到图像合成中的效率和速度问题，同时提高图像的保真度和分辨率。
关键思路

Meissonic将非自回归掩蔽图像建模（MIM）方法与一系列创新的架构设计、先进的位置编码策略和优化的采样条件相结合，实现了与目前最先进的扩散模型相媲美的图像生成效果。
其它亮点

本文采用高质量的训练数据，整合人类偏好分数驱动的微观条件，并采用特征压缩层进一步提高图像的保真度和分辨率。实验结果表明，Meissonic能够生成高质量、高分辨率的图像，并且效率和速度都得到了显著提高。本文提供了一个能够生成1024x1024分辨率图像的模型检查点，并开源了代码。
相关研究

最近的相关研究包括Stable Diffusion和LlamaGen。

Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

提问交流

提问交流