TemporalStory: Enhancing Consistency in Story Visualization using Spatial-Temporal Attention

2024年07月13日
  • 简介
    故事可视化在文本生成图像方面是一项具有挑战性的任务,不仅需要从文本提示中呈现视觉细节,还需要确保图像的一致性。最近,大多数方法都采用自回归方式来解决不一致性问题,条件是先前的图像-句子对。然而,它们忽视了故事背景分散在所有句子中的事实。自回归方法无法编码来自后续图像-句子对的信息,因此无法捕捉整个故事背景。为了解决这个问题,我们引入了TemporalStory,利用空间-时间注意力来模拟图像中的复杂空间和时间依赖关系,从而根据给定的故事情节生成连贯的图像。为了更好地理解故事情节,我们引入了一个文本适配器,能够将其他句子的信息整合到当前句子的嵌入中。此外,为了利用故事图像之间的场景变化作为模型的指导,我们提出了StoryFlow适配器来衡量图像之间的变化程度。通过在两个流行的基准测试PororoSV和FlintstonesSV上进行大量实验,我们的TemporalStory在故事可视化和故事延续任务上均优于先前的最新技术水平。
  • 图表
  • 解决问题
    该论文旨在解决文本到图像生成中的一致性问题,提出了一种使用时空注意力建模复杂时空依赖关系的方法,以生成基于给定故事情节的连贯图像。
  • 关键思路
    该论文引入了TemporalStory,利用时空注意力模型来建模图像中的复杂时空依赖关系,以生成基于给定故事情节的连贯图像。此外,论文还引入了文本适配器和StoryFlow适配器来更好地理解故事情境和引导模型。
  • 其它亮点
    论文在PororoSV和FlintstonesSV两个流行基准数据集上进行了广泛的实验,表明TemporalStory在故事可视化和故事续写任务中均优于之前的最先进方法。此外,论文还提供了开源代码。
  • 相关研究
    最近在这个领域中的相关研究包括:《Generative Adversarial Text-to-Image Synthesis: A Survey》、《Text-to-Image Generation: A Survey》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论