Many-to-many Image Generation with Auto-regressive Diffusion Models

2024年04月03日
  • 简介
    最近图像生成技术取得了显著进展,但现有模型在感知和生成广泛背景下任意数量相互关联的图像方面存在局限性。随着多媒体平台的扩大,对多图像场景(如多视图图像和视觉叙述)的需求不断增加,这种限制变得越来越关键。本文介绍了一个面向多对多图像生成的通用框架,能够从给定的图像集合中生成相互关联的图像系列,提供了一个可扩展的解决方案,避免了在不同的多图像场景下需要特定任务的解决方案。为了实现这一点,我们提出了MIS,一个新颖的大规模多图像数据集,包含1200万个合成的多图像样本,每个样本包含25个相互关联的图像。利用具有不同潜在噪声的稳定扩散,我们的方法从单个标题生成一组相互关联的图像。利用MIS,我们学习了M2M,一个面向多对多生成的自回归模型,其中每个图像都在扩散框架内建模。在合成的MIS上进行训练,该模型擅长捕捉前面的图像(合成或真实)中的风格和内容,并生成遵循捕捉到的模式的新图像。此外,通过任务特定的微调,我们的模型展示了其适应各种多图像生成任务的能力,包括新视角合成和视觉过程生成。
  • 图表
  • 解决问题
    本论文的问题是如何解决多图像生成中的限制,从而实现一个通用的多对多图像生成框架,以满足不同的多图像场景需求。
  • 关键思路
    本论文提出了一个基于稳定扩散的多对多图像生成框架,并使用一个大规模的多图像数据集 MIS 进行训练和测试。该框架可以从一个给定的图像集合中生成一系列相互关联的图像序列,具有可扩展性和通用性。
  • 其它亮点
    本论文的亮点包括:提出了一个通用的多对多图像生成框架,使用一个大规模的多图像数据集 MIS 进行训练和测试,证明了该框架的有效性和可扩展性;使用稳定扩散和多个潜在噪声对图像进行建模,从而生成与前面图像相关的新图像;通过任务特定的微调,该框架可以适应不同的多图像生成任务,如新视角合成和视觉过程生成。
  • 相关研究
    在这个领域中,最近的相关研究包括:基于生成对抗网络的多图像生成方法、基于变分自编码器的多图像生成方法、基于序列模型的多图像生成方法等。其中一些相关论文包括:"Generative Multi-Adversarial Networks"、"Variational Autoencoder for Multi-Modal Learning and Clustering"、"Sequential Image Generation using Recurrent Neural Networks"等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问