- 简介故事可视化旨在根据故事情节生成一系列逼真而连贯的图像。目前的模型采用逐帧架构,通过将预训练的文本到图像模型转化为自回归模式。尽管这些模型已经取得了显着进展,但仍存在三个缺陷。1)自回归模式的单向生成限制了其在许多场景中的可用性。2)引入的故事历史编码器带来了极高的计算成本。3)故事可视化和延续模型的训练和推断是独立的,不够用户友好。为此,我们提出了一个双向、统一和高效的框架,即StoryImager。StoryImager增强了从预训练的文本到图像模型继承的故事板生成能力,实现双向生成。具体而言,我们引入了目标帧掩蔽策略,以扩展和统一不同的故事图像生成任务。此外,我们提出了一个帧-故事交叉注意力模块,将交叉注意力分解为局部保真度和全局连贯性。此外,我们设计了一个上下文特征提取器,从整个故事情节中提取上下文信息。广泛的实验结果证明了我们的StoryImager的出色性能。代码可在https://github.com/tobran/StoryImager获得。
-
- 图表
- 解决问题论文旨在解决故事可视化中自回归式生成模型的局限性,包括单向生成、高计算成本以及模型训练和推断分离等问题。
- 关键思路论文提出了一种双向、统一、高效的框架——StoryImager,通过引入目标帧掩蔽策略、帧-故事交叉注意力模块和上下文特征提取器等方法,提高了故事图板生成的能力。
- 其它亮点论文的实验结果表明,StoryImager具有出色的性能,并提供了开源代码。此外,论文提出的方法可以应用于其他领域的图像生成任务。
- 在故事可视化领域,之前的研究主要采用自回归式生成模型。与此同时,一些非自回归式生成模型也被提出,如GPT-2和CLIP。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流