- 简介随着图像生成和开放式文本生成技术的显著进步,交错的图像文本内容的创作已成为一个越来越引人入胜的领域。多模态故事生成是一种以交错方式生成叙述性文本和生动图像的特征,是一项具有广泛应用价值和实用性的任务。然而,这项任务面临着重大挑战,因为它需要理解文本和图像之间复杂的相互作用,并具备生成连贯、上下文相关的长序列文本和视觉内容的能力。在这项工作中,我们提出了一种新颖的方法SEED-Story,它利用多模态大语言模型(MLLM)生成扩展的多模态故事。我们的模型建立在MLLM强大的理解能力之上,预测文本标记和视觉标记,并随后使用适应的视觉去标记器处理这些标记,以产生具有一致性的字符和样式的图像。我们进一步提出了多模态注意力汇聚机制,以高效的自回归方式生成具有多达25个序列的故事(仅用于训练的是10个)。此外,我们提出了一个名为StoryStream的大规模高分辨率数据集,用于训练我们的模型并在各个方面定量评估多模态故事生成的任务。
-
- 图表
- 解决问题本文旨在解决多模态故事生成的问题,即如何在文本和图像之间实现连贯的交互生成,以及如何生成一系列连贯、相关的文本和图像。
- 关键思路本文提出了一种名为SEED-Story的方法,利用多模态大语言模型(MLLM)生成扩展的多模态故事。该方法利用MLLM的强大理解能力预测文本令牌和视觉令牌,并使用适应性视觉去令牌化器处理视觉令牌,以生成具有一致角色和风格的图像。此外,本文还提出了多模态注意力汇聚机制,以高效的自回归方式生成长达25个序列的故事。
- 其它亮点本文提出了一个大规模高分辨率的数据集StoryStream用于训练模型,并在各个方面定量评估多模态故事生成任务。实验结果表明,SEED-Story方法在生成文本和图像方面都表现出色,并且在生成长序列故事方面具有高效性和可扩展性。
- 在这个领域的相关研究包括:1. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention;2. MirrorGAN: Learning Text-to-image Generation by Redescription;3. Multi-modal Transformer for Video Captioning。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流