Stability AI 和我们的合作者很自豪地宣布通过这种形式向研究人员发布 Stable Diffusion 的第一阶段,一旦您获得访问权,模型权重将由我们在 Hugging Face 的朋友托管。代码可在此处获得,模型卡可在此处获得。我们正在共同努力尽快公开发布。
申请入口:https://stability.ai/research-access-form
这项工作由 Runway 的 Patrick Esser 和海德堡大学 CompVis 实验室(现为 LMU 的机器视觉与学习研究小组)的 Robin Rombach 领导,并得到了 Eleuther AI、LAION 和我们自己的生成 AI 团队的社区的支持。
Stable Diffusion 是一种文本到图像的模型,它将使数十亿人能够在几秒钟内创造出令人惊叹的艺术。这是速度和质量上的突破,这意味着它可以在消费级 GPU 上运行。您可以在此页面上看到该模型创建的一些惊人的输出,而无需进行预处理或后处理。
该模型本身建立在 CompVis 和 Runway 团队在其广泛使用的潜在扩散模型中的工作基础上,并结合了我们的主要生成 AI 开发人员 Katherine Crowson、Open AI 的 Dall-E 2、Google Brain 的 Imagen 的条件扩散模型的见解和许多其他人。我们很高兴人工智能媒体生成是一个合作领域,并希望它能继续这种方式,为所有人带来创造力的礼物。
核心数据集在 LAION-Aesthetics 上进行了训练,这是一个即将发布的 LAION 5B 子集。 LAION-Aesthetics 是使用基于 CLIP 的新模型创建的,该模型基于图像的“美丽”程度过滤 LAION-5B,基于稳定扩散的 alpha 测试人员的评级。 LAION-Aesthetics 将在未来几天在 https://laion.ai 上与其他子集一起发布。
稳定的扩散在消费级 GPU 上的 10 GB VRAM 上运行,在几秒钟内生成 512x512 像素的图像。这将允许研究人员和公众在一系列条件下运行它,使图像生成民主化。我们期待围绕这一点出现的开放生态系统和进一步的模型,以真正探索潜在空间的边界。
上个月,该模型在我们的 4,000 个 A100 Ezra-1 AI 超集群上进行了训练,这是探索这种方法和其他方法的一系列模型中的第一个。
我们一直在与 10,000 多名 beta 测试人员一起大规模测试该模型,这些测试人员每天创建 170 万张图像。
评论
沙发等你来抢