StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion

2024年04月09日
  • 简介
    故事可视化旨在根据故事情节生成一系列逼真而连贯的图像。目前的模型采用逐帧架构,通过将预训练的文本到图像模型转化为自回归模式。尽管这些模型已经取得了显着进展,但仍存在三个缺陷。1)自回归模式的单向生成限制了其在许多场景中的可用性。2)引入的故事历史编码器带来了极高的计算成本。3)故事可视化和延续模型的训练和推断是独立的,不够用户友好。为此,我们提出了一个双向、统一和高效的框架,即StoryImager。StoryImager增强了从预训练的文本到图像模型继承的故事板生成能力,实现双向生成。具体而言,我们引入了目标帧掩蔽策略,以扩展和统一不同的故事图像生成任务。此外,我们提出了一个帧-故事交叉注意力模块,将交叉注意力分解为局部保真度和全局连贯性。此外,我们设计了一个上下文特征提取器,从整个故事情节中提取上下文信息。广泛的实验结果证明了我们的StoryImager的出色性能。代码可在https://github.com/tobran/StoryImager获得。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决故事可视化中自回归式生成模型的局限性,包括单向生成、高计算成本以及模型训练和推断分离等问题。
  • 关键思路
    论文提出了一种双向、统一、高效的框架——StoryImager,通过引入目标帧掩蔽策略、帧-故事交叉注意力模块和上下文特征提取器等方法,提高了故事图板生成的能力。
  • 其它亮点
    论文的实验结果表明,StoryImager具有出色的性能,并提供了开源代码。此外,论文提出的方法可以应用于其他领域的图像生成任务。
  • 相关研究
    在故事可视化领域,之前的研究主要采用自回归式生成模型。与此同时,一些非自回归式生成模型也被提出,如GPT-2和CLIP。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问