TemporalStory: Enhancing Consistency in Story Visualization using Spatial-Temporal Attention

简介

故事可视化在文本生成图像方面是一项具有挑战性的任务，不仅需要从文本提示中呈现视觉细节，还需要确保图像的一致性。最近，大多数方法都采用自回归方式来解决不一致性问题，条件是先前的图像-句子对。然而，它们忽视了故事背景分散在所有句子中的事实。自回归方法无法编码来自后续图像-句子对的信息，因此无法捕捉整个故事背景。为了解决这个问题，我们引入了TemporalStory，利用空间-时间注意力来模拟图像中的复杂空间和时间依赖关系，从而根据给定的故事情节生成连贯的图像。为了更好地理解故事情节，我们引入了一个文本适配器，能够将其他句子的信息整合到当前句子的嵌入中。此外，为了利用故事图像之间的场景变化作为模型的指导，我们提出了StoryFlow适配器来衡量图像之间的变化程度。通过在两个流行的基准测试PororoSV和FlintstonesSV上进行大量实验，我们的TemporalStory在故事可视化和故事延续任务上均优于先前的最新技术水平。
图表
解决问题

该论文旨在解决文本到图像生成中的一致性问题，提出了一种使用时空注意力建模复杂时空依赖关系的方法，以生成基于给定故事情节的连贯图像。
关键思路

该论文引入了TemporalStory，利用时空注意力模型来建模图像中的复杂时空依赖关系，以生成基于给定故事情节的连贯图像。此外，论文还引入了文本适配器和StoryFlow适配器来更好地理解故事情境和引导模型。
其它亮点

论文在PororoSV和FlintstonesSV两个流行基准数据集上进行了广泛的实验，表明TemporalStory在故事可视化和故事续写任务中均优于之前的最先进方法。此外，论文还提供了开源代码。
相关研究

最近在这个领域中的相关研究包括：《Generative Adversarial Text-to-Image Synthesis: A Survey》、《Text-to-Image Generation: A Survey》等。

TemporalStory: Enhancing Consistency in Story Visualization using Spatial-Temporal Attention

评论