- 简介本文提出了一种名为“一致性自注意力”的新型自注意力计算方法,能够显著提高生成图像的一致性,并以零样本方式增强了预训练扩散式文本到图像模型。此外,为了将方法扩展到长序列视频生成,文中还介绍了一种名为“语义空间时间运动预测器”的新型语义空间时间运动预测模块。该模块能够将生成的图像序列转换为具有平滑转换和一致主题的视频,特别是在长视频生成的情况下,比仅基于潜在空间的模块更加稳定。将这两个新组件合并后,我们的框架“StoryDiffusion”可以使用一致的图像或视频描述基于文本的故事,包括丰富多样的内容。提出的StoryDiffusion在视觉故事生成方面进行了开创性的探索,并希望能够激发更多的研究从架构修改的角度进行。我们的代码公开在https://github.com/HVision-NKU/StoryDiffusion。
- 图表
- 解决问题如何在生成的图像序列中保持内容的一致性,特别是包含主题和复杂细节的图像序列?如何在长视频生成中实现稳定的主题和平滑的过渡?
- 关键思路提出了一种新的自注意力计算方法,称为一致性自注意力,可以显著提高生成图像的一致性,并以零样本方式增强预训练扩散式文本到图像模型。同时引入了一种新的语义空间时间运动预测模块,可以将生成的图像序列转换成具有平滑过渡和一致主题的视频。
- 其它亮点论文提出的StoryDiffusion框架可以描述一个基于文本的故事,生成具有一致内容的图像序列或视频。实验使用了多个数据集进行验证,并在GitHub上公开了代码。
- 最近的相关研究包括:《Generative Adversarial Text-to-Image Synthesis》、《Generative Adversarial Networks for Extreme Learned Image Compression》、《Generative Multi-Agent Behavioral Cloning》等。
沙发等你来抢
去评论
评论
沙发等你来抢