Generating Coherent Sequences of Visual Illustrations for Real-World Manual Tasks

简介

多步骤说明，例如食谱和操作指南，非常受益于视觉辅助，例如一系列伴随说明步骤的图像。虽然大型语言模型（LLMs）已经变得擅长生成连贯的文本步骤，但大型视觉/语言模型（LVLMs）较难生成伴随的图像序列。最具挑战性的方面是，每个生成的图像需要遵循相关的文本步骤说明，并且在序列中与先前的图像保持视觉一致性。为了解决这个问题，我们提出了一种生成一致图像序列的方法，该方法将潜在扩散模型（LDM）与LLM集成在一起，将序列转换为标题以维护序列的语义连贯性。此外，为了保持图像序列的视觉连贯性，我们引入了一个复制机制，以从相关步骤的先前生成的图像开始迭代潜在向量，初始化反向扩散过程。这两种策略将基于说明步骤的序列来调节反向扩散过程，并将当前图像的内容与先前的说明步骤和相应的图像联系起来。实验表明，所提出的方法在46.6％的情况下被人类首选，而第二佳方法仅有26.6％。此外，自动度量表明，所提出的方法在两个领域中都能维护语义连贯性和步骤间的视觉一致性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何生成与文本步骤一致、具有视觉连贯性的图像序列？
关键思路

将潜在扩散模型与大型语言模型相结合，使用复制机制来初始化反向扩散过程，将当前图像的内容与前面的指令步骤和相应的图像联系起来，从而实现生成一致的图像序列。
其它亮点

该方法在人类实验中被46.6%的人偏好，是第二佳方法的1.75倍。自动度量指标表明，该方法在两个领域中都能保持语义连贯性和视觉一致性。
相关研究

与该论文相关的研究包括使用GAN来生成图像序列的研究，如《Sequence Generation with Generative Adversarial Nets》；以及使用LSTM和VAE来生成图像序列的研究，如《Generating Sequences With Recurrent Neural Networks》和《Generating and Predicting Multiple Future Frames with Visual Transformers》。

Generating Coherent Sequences of Visual Illustrations for Real-World Manual Tasks

提问交流

提问交流