- 简介自回归模型在语言生成领域取得了重大进展,但在图像合成领域表现不如扩散模型。在本文中,我们介绍了MARS,这是一个新颖的T2I生成框架,它包含一个特别设计的语义视觉语言集成专家(SemVIE)。这个创新性的组件通过独立处理语言和视觉信息来集成预训练的LLMs,冻结文本组件同时微调视觉组件。这种方法保留了LLMs的自然语言处理能力,同时赋予它们出色的视觉理解能力。在预训练的Qwen-7B强大基础上构建,MARS以其双语生成能力(对应英语和中文提示)和联合图像和文本生成的能力脱颖而出。该框架的灵活性使其适应任何任务的适应性迁移。此外,MARS采用多阶段训练策略,首先通过互补的双向任务建立强大的图像-文本对齐,然后集中于完善T2I生成过程,显著增强文本-图像同步性和图像细节的粒度。值得注意的是,MARS仅需要SD1.5所需GPU天数的9%,但在各种基准测试中取得了显著的结果,说明了训练效率和在各种应用中快速部署的潜力。
- 图表
- 解决问题本文旨在解决图像合成中的语言生成问题,并验证了使用SemVIE框架的有效性。
- 关键思路SemVIE框架通过独立处理语言和视觉信息,结合预训练的LLMs,冻结文本组件,同时微调视觉组件,从而在保留NLP能力的同时赋予了LLMs出色的视觉理解力。
- 其它亮点MARS具有双语生成能力,可以对英文和中文语言提示进行图像生成。采用多阶段训练策略,先通过互补的双向任务建立稳健的图像-文本对齐,然后集中精力提高T2I生成过程的精细度和图像细节。MARS只需要SD1.5所需GPU天数的9%,却在各种基准测试中取得了显著的结果,展示了训练效率和快速部署在各种应用程序中的潜力。
- 最近的相关研究包括:1.《Generative Pretraining Transformer for Diverse Text Generation》;2.《Image Generation from Text using GANs》;3.《AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks》。
沙发等你来抢
去评论
评论
沙发等你来抢