- 简介视觉叙事是一种新兴领域,它将图像和叙述结合起来,创造出引人入胜、具有情境丰富性的故事。尽管具有潜力,但由于视觉和文本信息的复杂性,生成连贯且具有情感共鸣的视觉故事仍然具有挑战性。本文提出了一种新颖的方法,利用大型语言模型(LLMs)和大型视觉-语言模型(LVLMs)结合指令调整来解决这些挑战。我们介绍了一个新的数据集,包含多样化的视觉故事,注释有详细的标题和多模态元素。我们的方法采用监督学习和强化学习相结合的方式对模型进行微调,增强其叙事生成能力。使用 GPT-4 进行定量评估和人工定性评估,结果表明我们的方法明显优于现有模型,在叙事连贯性、相关性、情感深度和整体质量方面得分更高。这些结果强调了指令调整和LLMs/LVLMs在推进视觉叙事方面的有效性和潜力。
- 图表
- 解决问题如何通过大型语言模型和大型视觉语言模型相结合的方法来解决视觉叙事中的信息对齐问题,提高情感共鸣和故事质量?
- 关键思路论文提出了一种使用指令调整的方法,结合监督学习和强化学习来微调模型,从而增强其叙事生成能力。使用大型语言模型和大型视觉语言模型相结合的方法,通过对多模态数据集进行注释,提高了故事的连贯性、相关性、情感深度和整体质量。
- 其它亮点论文提出了一种新的方法来解决视觉叙事中的信息对齐问题,并且在大型数据集上进行了实验验证,结果表明该方法优于现有模型。论文还提供了一个新的多模态数据集,并使用了GPT-4模型进行了定量评估和人工主观评估。值得进一步研究的是,该方法在其他多模态任务中的应用以及如何进一步提高模型的性能。
- 最近的相关研究包括:《Unsupervised Learning for Physical Interaction through Video Prediction》、《A Simple Framework for Contrastive Learning of Visual Representations》、《Generative Pretraining Transformer 3》等。
沙发等你来抢
去评论
评论
沙发等你来抢