- 简介本文介绍了一种名为Meissonic的图像生成模型,它采用了非自回归遮蔽图像建模(MIM)方法,并通过引入一系列创新架构、先进的位置编码策略和优化的采样条件,实现了与SDXL等最先进扩散模型相当的水平。此外,该模型还利用高质量的训练数据,结合人类偏好得分信息,采用特征压缩层进一步提高图像保真度和分辨率。通过大量实验验证,该模型不仅与现有的模型如SDXL相匹配,而且在生成高质量、高分辨率图像方面往往表现更好。研究人员还发布了一个模型检查点,能够生成$1024 \times 1024$分辨率的图像。这一研究成果表明,Meissonic有望成为文本到图像综合的新标准。
-
- 图表
- 解决问题本文旨在通过提出一种新的非自回归掩蔽图像建模(MIM)方法,名为Meissonic,来解决文本到图像合成中的效率和速度问题,同时提高图像的保真度和分辨率。
- 关键思路Meissonic将非自回归掩蔽图像建模(MIM)方法与一系列创新的架构设计、先进的位置编码策略和优化的采样条件相结合,实现了与目前最先进的扩散模型相媲美的图像生成效果。
- 其它亮点本文采用高质量的训练数据,整合人类偏好分数驱动的微观条件,并采用特征压缩层进一步提高图像的保真度和分辨率。实验结果表明,Meissonic能够生成高质量、高分辨率的图像,并且效率和速度都得到了显著提高。本文提供了一个能够生成1024x1024分辨率图像的模型检查点,并开源了代码。
- 最近的相关研究包括Stable Diffusion和LlamaGen。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流