- 简介故事可视化在文本生成图像方面是一项具有挑战性的任务,不仅需要从文本提示中呈现视觉细节,还需要确保图像的一致性。最近,大多数方法都采用自回归方式来解决不一致性问题,条件是先前的图像-句子对。然而,它们忽视了故事背景分散在所有句子中的事实。自回归方法无法编码来自后续图像-句子对的信息,因此无法捕捉整个故事背景。为了解决这个问题,我们引入了TemporalStory,利用空间-时间注意力来模拟图像中的复杂空间和时间依赖关系,从而根据给定的故事情节生成连贯的图像。为了更好地理解故事情节,我们引入了一个文本适配器,能够将其他句子的信息整合到当前句子的嵌入中。此外,为了利用故事图像之间的场景变化作为模型的指导,我们提出了StoryFlow适配器来衡量图像之间的变化程度。通过在两个流行的基准测试PororoSV和FlintstonesSV上进行大量实验,我们的TemporalStory在故事可视化和故事延续任务上均优于先前的最新技术水平。
- 图表
- 解决问题该论文旨在解决文本到图像生成中的一致性问题,提出了一种使用时空注意力建模复杂时空依赖关系的方法,以生成基于给定故事情节的连贯图像。
- 关键思路该论文引入了TemporalStory,利用时空注意力模型来建模图像中的复杂时空依赖关系,以生成基于给定故事情节的连贯图像。此外,论文还引入了文本适配器和StoryFlow适配器来更好地理解故事情境和引导模型。
- 其它亮点论文在PororoSV和FlintstonesSV两个流行基准数据集上进行了广泛的实验,表明TemporalStory在故事可视化和故事续写任务中均优于之前的最先进方法。此外,论文还提供了开源代码。
- 最近在这个领域中的相关研究包括:《Generative Adversarial Text-to-Image Synthesis: A Survey》、《Text-to-Image Generation: A Survey》等。
沙发等你来抢
去评论
评论
沙发等你来抢