- 简介开发交错图像文本数据的生成模型具有研究和实际价值。这需要模型理解交错序列并随后生成图像和文本。然而,现有尝试受到固定数量的视觉标记无法有效捕捉图像细节的问题的限制,这在多图像场景中尤为棘手。为了解决这个问题,本文提出了MM-Interleaved,这是一个用于交错图像文本数据的端到端生成模型。它引入了一个多尺度和多图像特征同步器模块,允许在生成过程中直接访问先前上下文中的细粒度图像特征。MM-Interleaved在配对和交错图像文本语料库上进行端到端预训练。通过监督微调阶段进一步增强了模型,其中模型提高了遵循复杂的多模态指令的能力。实验证明了MM-Interleaved在遵循多模态指令识别视觉细节和根据文本和视觉条件生成一致图像方面的多功能性。代码和模型可在\url{https://github.com/OpenGVLab/MM-Interleaved}上获得。
-
- 图表
- 解决问题本文旨在解决对于交错的图像文本数据生成模型中,由于固定数量的视觉令牌无法高效捕捉图像细节而导致的问题,尤其是在多图像场景下的问题。
- 关键思路本文提出了一种多尺度和多图像特征同步模块的端到端生成模型MM-Interleaved,使模型能够在生成过程中直接访问先前上下文中的细粒度图像特征。该模型经过配对和交错的图像文本语料库的端到端预训练,并通过监督微调阶段进一步增强其遵循复杂多模态指令的能力。
- 其它亮点本文的亮点包括:提出了一种解决交错的图像文本数据生成模型中固定数量视觉令牌无法高效捕捉图像细节的方法;引入了多尺度和多图像特征同步模块;提出的MM-Interleaved模型在多模态指令下生成一致的图像;实验结果证明了该模型的多样性和通用性。论文提供了代码和模型,可以在GitHub上获取。
- 最近在这个领域中,还有一些相关的研究,例如:1)《Image Generation from Scene Graphs》;2)《Generative Adversarial Text-to-Image Synthesis》;3)《StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流