StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion

简介

故事可视化旨在根据故事情节生成一系列逼真而连贯的图像。目前的模型采用逐帧架构，通过将预训练的文本到图像模型转化为自回归模式。尽管这些模型已经取得了显着进展，但仍存在三个缺陷。1）自回归模式的单向生成限制了其在许多场景中的可用性。2）引入的故事历史编码器带来了极高的计算成本。3）故事可视化和延续模型的训练和推断是独立的，不够用户友好。为此，我们提出了一个双向、统一和高效的框架，即StoryImager。StoryImager增强了从预训练的文本到图像模型继承的故事板生成能力，实现双向生成。具体而言，我们引入了目标帧掩蔽策略，以扩展和统一不同的故事图像生成任务。此外，我们提出了一个帧-故事交叉注意力模块，将交叉注意力分解为局部保真度和全局连贯性。此外，我们设计了一个上下文特征提取器，从整个故事情节中提取上下文信息。广泛的实验结果证明了我们的StoryImager的出色性能。代码可在https://github.com/tobran/StoryImager获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决故事可视化中自回归式生成模型的局限性，包括单向生成、高计算成本以及模型训练和推断分离等问题。
关键思路

论文提出了一种双向、统一、高效的框架——StoryImager，通过引入目标帧掩蔽策略、帧-故事交叉注意力模块和上下文特征提取器等方法，提高了故事图板生成的能力。
其它亮点

论文的实验结果表明，StoryImager具有出色的性能，并提供了开源代码。此外，论文提出的方法可以应用于其他领域的图像生成任务。
相关研究

在故事可视化领域，之前的研究主要采用自回归式生成模型。与此同时，一些非自回归式生成模型也被提出，如GPT-2和CLIP。

StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion

提问交流

提问交流