- 简介基于扩散的故事可视化模型已经显示出在故事叙述任务中生成内容连贯的图像的潜力。然而,如何在保持角色一致性的同时有效地将新角色整合到现有叙事中仍然是一个未解决的问题,特别是在数据有限的情况下。有两个主要限制阻碍了进展:(1)由于潜在的角色泄漏和不一致的文本标注,缺乏合适的基准,(2)区分新旧角色的挑战,导致结果模糊不清。为了解决这些挑战,我们介绍了NewEpisode基准,包括经过改进的数据集,旨在评估生成模型在使用仅一个示例故事生成带有新角色的新故事时的适应性。改进的数据集涉及改进的文本提示,并消除了角色泄漏。此外,为了减轻生成结果中的角色混淆,我们提出了EpicEvo,一种将扩散式视觉故事生成模型与一个单独的故事相结合的方法,使新角色与已建立的角色动态无缝整合。EpicEvo引入了一种新颖的对抗性角色对齐模块,逐步地将生成的图像与新角色的示例图像进行对齐,在应用知识蒸馏以防止角色和背景细节遗忘的同时。我们的评估定量地证明了EpicEvo在NewEpisode基准测试中优于现有基线,定性研究则证实了它在扩散模型中对视觉故事生成的卓越自定义。总之,EpicEvo提供了一种有效的方法,只需一个示例故事即可整合新角色,为连载卡通等应用开启了新的可能性。
- 图表
- 解决问题本论文试图解决如何有效地将新角色整合到现有故事情节中,同时保持角色的一致性,特别是在数据有限的情况下。并且为此提出了一个新的基准测试集NewEpisode。
- 关键思路本论文提出了一种名为EpicEvo的方法,通过自定义扩散式视觉故事生成模型,使用单个包含新角色的故事,无缝地将其整合到已有角色的动态中。EpicEvo引入了一种新的对抗性角色对齐模块,以在扩散过程中逐步对齐新角色的生成图像,同时应用知识蒸馏来防止遗忘角色和背景细节。
- 其它亮点本论文提出了NewEpisode基准测试集,避免了角色泄露和不一致的文本标注问题。EpicEvo方法在NewEpisode基准测试集上的表现优于现有基线方法。实验结果表明,EpicEvo方法能够有效地将新角色整合到现有故事情节中,并且在视觉故事生成领域具有很好的应用前景。
- 在这个领域中,一些相关的研究包括:《StoryGAN: A Sequential Conditional GAN for Story Visualization》、《GPT-2: Language Models are Unsupervised Multitask Learners》等。
沙发等你来抢
去评论
评论
沙发等你来抢