AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive Image Generation

向作者提问

NEW

简介

由于先进的文本到图像生成模型已经擅长产生出色的单张图片，更具挑战性的任务——即多轮交互式图像生成开始引起相关研究团体的关注。这个任务要求模型与用户进行多轮交互，生成一系列连贯的图像。然而，由于用户可能频繁切换主题，目前的努力在生成多样化图像的同时很难保持主题的一致性。为了解决这个问题，我们引入了一个无需训练的多代理框架AutoStudio。AutoStudio采用三个基于大型语言模型(LLMs)的代理来处理交互，以及一个稳定扩散(SD)基于代理来生成高质量的图像。具体而言，AutoStudio包括(i)一个主题管理器来解释交互对话并管理每个主题的上下文，(ii)一个布局生成器来生成细粒度的边界框来控制主题位置，(iii)一个监督员来提供布局细化的建议，(iv)一个绘图器来完成图像生成。此外，我们引入了一个并行UNet来替换绘图器中的原始UNet，它采用两个并行的交叉注意力模块来利用主题感知特征。我们还引入了一种主题初始化生成方法，以更好地保留小主题。因此，我们的AutoStudio可以交互地、一致地生成一系列多主题图像。在公共CMIGBench基准测试和人类评估上的广泛实验表明，AutoStudio能够很好地保持多主题的一致性，并且平均Frechet Inception距离提高了13.65%，平均字符相似度提高了2.83%，达到了最先进的性能水平。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

解决问题的是多轮交互式图像生成中的主题一致性问题。
关键思路

论文提出了一个基于大型语言模型的多代理框架AutoStudio，其中包括主题管理器、布局生成器、监督员和绘图员，以及一个用于生成高质量图像的稳定扩散代理。AutoStudio可以交互式地生成一系列多主题图像，并保持主题一致性。
其它亮点

论文提出了一个训练免费的多代理框架AutoStudio，可以生成一系列多主题图像，并保持主题一致性。AutoStudio包括四个代理，以及一个用于生成高质量图像的稳定扩散代理。论文还介绍了一个用于更好地保留小主题的主题初始化生成方法和一个用于利用主题感知特征的并行UNet。在公共CMIGBench基准测试和人类评估上，AutoStudio的表现优于现有方法，平均Frechet Inception距离提高了13.65％，平均字符-字符相似度提高了2.83％。
相关研究

最近的相关研究包括《Generative Multi-Agent Behavioral Cloning》、《Multi-Agent Diverse Generative Adversarial Networks》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问