今年年初,OpenAI 图像版 GPT-3、120 亿参数的 DALL-E 刷屏社区,这个大型模型可以将以自然语言形式表达的大量概念转换为合适的图像,效果十分惊艳。如输入「牛油果形状的椅子」,就可以获得绿油油、形态各异的牛油果椅子图像。
经过近两个月的等待,OpenAI终于放出了DALL-E 的部分论文和代码:目前只开放了使用图像重建部分 d-VAE 训练的 CNN 编码器和解码器部分,而 Transformer 代码部分还没有公开。除此以外数据集也不能使用。而论文也是公布了 d-VAE 的论文。
期待后续 OpenAI 公开更多的技术细节。
论文摘要
按照传统,文本到图像的生成一直专注于寻找更好的建模假设,以便能够在固定数据集上进行训练。这些假设可能涉及到复杂的架构、辅助损失或边信息(side information),比如训练过程中提供的物体部分标签或分割掩码。
我们基于transformer 描述了用于此任务的一种简单方法,该transformer 能够将文本和图像token自动回归建模为单个数据流。有了足够的数据和规模后,在零样本情况下进行评估时,我们的方法就可以与先前的特定领域建模(DSM)一争高下……
论文引言
从文本到图像的现代机器学习合成方法始于Mansimov等人在2015年的研究工作,他们将Gregor 等人提出的用于生成图像标题的生成模型 DRAW 进行扩展,进一步生成新颖的视觉场景。2016年,Reed 等人证明,使用生成对抗网络(而不是使用递归可变自动编码器)可以提高图像逼真度。在同年的另一篇工作中,Reed 等人又证明,该系统不仅可以生成具有可识别属性的对象,还可以零样本泛化至留出(held-out)类别。
在接下来的几年里,研究人员又提出多种方法,推动了文本到图像生成领域的进展。比如,通过修改多尺度生成器来改进生成模型的架构;整合注意力和辅助损失;利用文本以外的其他条件信息资源。
在2017年,Nguyen等人提出了一种基于能量的条件图像生成框架。相对于现代方法,该框架在样本质量上取得了重大进步。他们的方法可以兼并预训练判别模型,并且证明,将其应用于在MS-COCO上预先训练的字幕模型时,模型能够执行文本到图像的生成。2020年,Cho等人还提出了一种方法,可以优化预训练跨模态掩码语言模型的输入。Manshimov等人在2015年的工作大幅提升了视觉逼真度,但样本仍然面临影响失真的“灾难”,例如物体变形、不合理的物体放置,或前景和背景元素的不自然混合。
由大规模生成模型驱动的最新进展表明了进一步改进上述问题的可能途径。具体来说,当计算、模型大小和数据进行仔细缩放时,自回归transformer(autoregressive transformer)在文本、图像和音频上能取得非常不错的效果。
相比之下,文本到图像的生成通常是在较小的数据集(例如MS-COCO和CUB-200)上进行评估。数据集大小和模型大小是否有可能成为限制当前方法发展的因素呢?在这项工作中,我们证明了,在从互联网上收集的2.5亿个图像文本对上训练一个包含120亿个参数的自回归transformer,能够得到一个可通过自然语言控制的灵活且逼真度高的图像生成模型。
同时,随之形成的系统无需使用任何训练标签,就可以在流行的 MS-COCO 数据集零样本泛化实现高质量的图像生成。它比先前由人类评估员在数据集上进行训练的工作节省了90%的工作时间。此外,它还能够执行复杂的任务,比如在基本级别上进行图像到图像的翻译。
阅读该论文的中文编译版,点击下面“阅读原文”。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢