- 简介故事可视化旨在根据文本叙述创建视觉上引人注目的图像或视频。尽管最近扩散模型取得了有希望的结果,但现有方法仍然难以仅基于故事创建一致的主题连贯序列。为此,我们提出了 DreamStory,这是一个自动的开放域故事可视化框架,利用LLMs和一种新颖的多主题一致扩散模型。DreamStory包括(1)一个充当故事导演的LLM和(2)一种创新的多主题一致扩散模型(MSD),用于生成一致的多个主题的图像。首先,DreamStory使用LLM生成与故事相对应的主题和场景的描述性提示,并注释每个场景的主题以进行后续的主题一致性生成。其次,DreamStory利用这些详细的主题描述来创建主题的肖像,这些肖像及其相应的文本信息作为多模式锚点(指导)。最后,MSD使用这些多模式锚点生成具有一致的多个主题的故事场景。具体而言,MSD包括掩蔽互惠自我注意(MMSA)和掩蔽互惠交叉关注(MMCA)模块。MMSA和MMCA模块分别确保与参考图像和文本的外观和语义一致性。两个模块都使用掩蔽机制来防止主题混合。为了验证我们的方法并促进故事可视化的进展,我们建立了DS-500基准测试,可以评估故事可视化框架的总体性能、主题识别准确性和生成模型的一致性。广泛的实验验证了DreamStory在主观和客观评估中的有效性。请访问我们的项目主页https://dream-xyz.github.io/dreamstory。
- 图表
- 解决问题本论文旨在解决故事可视化中的一些问题,包括如何基于故事生成一致的多主题图像序列等。这是一个新问题。
- 关键思路该论文提出了一种名为DreamStory的自动开放领域故事可视化框架,利用LLMs和一种新颖的多主题一致扩散模型,以生成一致的多主题图像序列。
- 其它亮点该论文的实验设计充分,使用了自己建立的基准测试DS-500,验证了DreamStory的有效性,并在主观和客观评估中得到了证明。此外,该论文还提供了项目主页和开源代码。
- 在这个领域中,最近的相关研究包括《StoryGAN: A Sequential Conditional GAN for Story Visualization》和《Learning to Compose Topic-Aware Mixture of Experts for Zero-shot Video Captioning》。
沙发等你来抢
去评论
评论
沙发等你来抢