Prompt Refinement with Image Pivot for Text-to-Image Generation

2024年06月28日
  • 简介
    对于文本生成图像,自动将用户提供的自然语言提示精炼成系统所偏爱的关键词提示对于用户体验至关重要。这种提示精炼过程类似于将提示从“用户语言”翻译成“系统语言”。然而,这种平行语料库的稀缺性使得训练提示精炼模型变得困难。受零-shot机器翻译技术的启发,我们引入了“以图像为中介的提示精炼”(PRIP)。PRIP创新地使用用户喜欢的图像的潜在表示作为用户和系统语言之间的中介“枢纽”。它将精炼过程分解为两个数据丰富的任务:从用户语言推断用户喜欢的图像的表示,然后将图像表示翻译成系统语言。因此,它可以利用丰富的数据进行训练。大量实验表明,PRIP显著优于各种基线,并且以零-shot方式有效地转移到未见过的系统。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决文本到图像生成中的一个关键问题:如何将用户提供的自然语言提示自动转化为系统所需的关键词提示,以提高用户体验。同时,由于缺乏这种平行语料库,如何训练一个有效的提示精炼模型也是一个挑战。
  • 关键思路
    本文提出了Prompt Refinement with Image Pivot (PRIP)方法。该方法使用用户喜欢的图像的潜在表示作为用户和系统语言之间的中介“枢纽”,将提示精炼过程分解为两个数据丰富的任务:从用户语言推断出用户喜欢的图像的表示,然后将图像表示翻译成系统语言提示。因此,它可以利用丰富的数据进行训练,并在零样本学习中有效地转移学习到未见过的系统中。
  • 其它亮点
    本文的亮点包括:1. 提出了使用图像表示作为中介的提示精炼方法,可以有效地解决平行语料库缺乏的问题。2. 在多个数据集上进行了广泛的实验,证明了PRIP方法的有效性和优越性。3. 通过零样本学习,PRIP方法可以成功地转移学习到未见过的系统中。4. 本文提供了开源代码。
  • 相关研究
    在文本到图像生成领域,还有一些相关研究,如:1. SCAN: Learning to Classify Images without Labels. 2. StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks. 3. MirrorGAN: Learning Text-to-image Generation by Redescription. 等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问