Stability AI推出Stable Diffusion XL 1.0，文本到图像模型

Stability AI宣布推出Stable Diffusion XL 1.0，这是一个文本到图像的模型，该公司将其描述为迄今为止“最先进的”版本。

Stability AI表示，SDXL 1.0能生成更加鲜明准确的色彩，在对比度、光线和阴影方面做了增强，可生成100万像素的图像（1024×1024）。而且还支持在网页上直接对生成图像进行后期编辑。

提示词也能比之前更简单了。这是因为SDXL 1.0的基础模型参数量达到了35亿，理解能力更强。对比基础版Stable Diffusion，参数量只有10亿左右。由此，SDXL 1.0也成为当前最大规模的开放图像模型之一。

Stability AI博客介绍了SDXL 1.0的更多技术细节。首先，模型在规模和架构上都有了新突破。它创新性地使用了一个基础模型（base model）+一个细化模型（refiner model），二者的参数规模分别为35亿和66亿。

这也使得SDXL 1.0成为目前规模最大的开放图像模型之一。

Stability AI创始人莫斯塔克（Emad Mostaque）表示，更大规模的参数量能让模型理解更多概念，教会它更深层次的东西。同时在SDXL 0.9版本还进行了RLHF强化。

这也是为什么现在SDXL 1.0支持短提示词，而且能分清红场（the Red Square）和一个红色的广场（a Red Square）。

在具体合成过程中，第一步，基础模型产生有噪声的latent，然后由细化模型进行去噪。

其中基础模型也可以作为独立模块使用。这两种模型结合能生成质量更好的图像，且不需要消耗更多计算资源。

官方介绍SDXL 1.0可以运行在8GB VRAM的消费级GPU上，或者是云端。除此之外，SDXL 1.0在微调也有了提升，可以生成自定义LoRAs或者checkpoints。

Stability AI团队现在也正在构建新一代可用于特定任务的结构、风格和组合控件，其中T2I/ControlNet专门用于SDXL。

内容中包含的图片若涉及版权问题，请及时与我们联系删除