- 简介本文介绍了一种名为 instruct-imagen 的模型,它解决了异构图像生成任务,并且能够泛化到未见过的任务。我们引入了多模态指导来进行图像生成任务的表示,这是一种能够精确表达一系列生成意图的任务表示方式。它使用自然语言来整合不同的模态(例如文本、边缘、样式、主题等),从而使得丰富的生成意图能够以统一的格式进行标准化。接着,我们通过一个两阶段的框架,使用预训练的文本到图像扩散模型进行 fine-tuning,构建了 instruct-imagen。首先,我们使用检索增强的训练方法来适应模型,以增强模型在外部多模态上下文中进行生成的能力。随后,我们对需要视觉语言理解的多样化图像生成任务进行 fine-tuning,每个任务都与一个封装了任务本质的多模态指导相匹配(例如以主题为驱动的生成等)。在各种图像生成数据集上进行的人类评估表明,instruct-imagen 在领域内与先前的任务特定模型相匹配或超过,并展示了对未见过的更复杂任务的有希望的泛化能力。
- 图表
- 解决问题该论文旨在解决异构图像生成任务的问题,并且在未见过的任务中实现泛化。
- 关键思路该论文提出了多模态指令来生成图像,使用自然语言将不同的模态(如文本、边缘、样式、主题等)融合在一起,以便将丰富的生成意图标准化为统一格式,并使用预训练的文本到图像扩散模型进行微调。
- 其它亮点该论文使用检索增强训练来增强模型在外部多模态上下文中生成图像的能力,并在各种图像生成数据集上进行人类评估,结果显示该模型在领域内与先前的任务特定模型相匹配或超过,并展示了对未见过和更复杂任务的有希望的泛化能力。
- 最近的相关研究包括《Generative Adversarial Text-to-Image Synthesis》和《StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks》等。
沙发等你来抢
去评论
评论
沙发等你来抢