OpenAI 最近发布了 DALL·E 2 系统,在 AI 界引发了「地震」,该系统能够根据文本描述创建图像。这是 DALL·E 系统的第二个版本,第一个版本是在近一年前发布的。然而,在 OpenAI 内部,DALL·E 2 背后的模型被称为 unCLIP,它更接近于 OpenAI 的 GLIDE 系统,而不是原始的 DALL·E。

本文旨在带领读者一览 OpenAI 的文本引导图像生成模型的演变,梳理了较为优秀的多模态文本图像模型:DALL·E、CLIP、GLIDE、DALL·E 2 (unCLIP)的模型框架、优缺点,及其迭代关系。

内容中包含的图片若涉及版权问题,请及时与我们联系删除