- 简介作为一项跨模态任务,视觉叙事旨在自动生成有序图像序列的故事。与图像字幕任务不同,视觉叙事不仅需要对图像中物体之间的关系进行建模,还需要挖掘相邻图像之间的联系。最近的方法主要利用端到端框架或多阶段框架来生成相关的故事,但它们通常忽略了潜在的主题信息。为了生成更连贯和相关的故事,本文提出了一种新方法,即面向主题的视觉叙事增强网络(TARN-VIST)。具体来说,我们从视觉和语言角度预先提取了故事的主题信息。然后,我们应用两种主题一致的强化学习奖励来识别生成的故事与人类标记的故事之间的差异,以便完善整个生成过程。对VIST数据集的广泛实验结果和人类评估表明,我们提出的模型在多个评估指标上优于大多数竞争模型。
- 图表
- 解决问题本论文旨在解决视觉叙事中的故事生成问题,即如何自动地为有序图像序列生成故事。同时,本论文也试图挖掘图像之间的联系以及主题信息,以提高故事的连贯性和相关性。
- 关键思路本文提出了一种新的方法,Topic Aware Reinforcement Network for Visual StoryTelling (TARN-VIST),通过预先提取故事的主题信息,利用两种主题一致的强化学习奖励来优化故事生成过程,从而生成更加连贯和相关的故事。
- 其它亮点本文的实验结果表明,TARN-VIST模型在VIST数据集上的表现优于大多数竞争模型,同时也比较好地解决了故事生成中的一些问题。此外,本文的方法也可以应用于其他领域的序列生成任务中。
- 近年来,视觉叙事和图像描述领域的研究非常活跃。其中,一些相关的研究包括:'Show and Tell: A Neural Image Caption Generator','Neural Storytelling: A Tale of Two Visuals','Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training'等。
沙发等你来抢
去评论
评论
沙发等你来抢