Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling

2024年08月07日
  • 简介
    最近的图像生成模型在从简短的标题中创建高质量图像方面表现出色。然而,当遇到冗长的上下文时,它们无法保持多个实例在图像之间的一致性。这种不一致性主要是由于现有训练数据集中缺乏粒度实例特征标注所致。为了解决这些问题,我们介绍了Openstory++,这是一个大规模数据集,结合了额外的实例级注释和图像文本。此外,我们开发了一种培养实体中心的图像文本生成模型的训练方法,确保模型学习有效地交织视觉和文本信息。具体而言,Openstory++简化了从开放域视频中提取关键帧的过程,采用视觉语言模型生成标题,然后通过大型语言模型进行叙述连贯性的润色。它通过提供更广泛的开放域资源,包括自动字幕,针对实例计数的高分辨率图像和广泛的帧序列以实现时间上的连贯性,超越了以前的数据集。此外,我们提出了Cohere-Bench,一个开创性的基准框架,用于评估提供长期多模态上下文时的图像生成任务,包括保持给定上下文中的背景、风格和实例的一致性的能力。与现有的基准相比,我们的工作填补了多模态生成中的关键空白,推动了能够熟练生成和解释开放域环境中复杂叙述的模型的发展。在Cohere-Bench中进行的实验证实了Openstory++在培养高质量视觉叙事模型方面的优越性,增强了其解决开放域生成任务的能力。更多详情请访问https://openstorypp.github.io/。
  • 图表
  • 解决问题
    解决问题:论文旨在解决图像生成模型在处理长篇文本时的一致性问题,通过引入Openstory++数据集和实体中心的图像-文本生成训练方法来提高模型的生成能力。
  • 关键思路
    关键思路:论文提出了Openstory++数据集,该数据集结合了图像、文本和实体级别的注释,并采用实体中心的图像-文本生成训练方法,强调模型学习如何有效地交织视觉和文本信息。
  • 其它亮点
    其他亮点:论文提出了Cohere-Bench评估框架,用于评估图像生成任务在提供长期多模态上下文时的性能,包括保持给定上下文中的背景、风格和实例的一致性。Openstory++数据集提供了更广泛的开放域资源,包括自动字幕、为实例计数量身定制的高分辨率图像和广泛的帧序列以实现时间上的一致性。论文的实验结果表明,Openstory++数据集和实体中心的图像-文本生成训练方法可以提高模型的生成能力。
  • 相关研究
    相关研究:最近的相关研究包括图像生成模型和文本生成模型的发展,以及多模态生成的研究。其中一些研究包括《Generative Adversarial Nets》、《Show and Tell: A Neural Image Caption Generator》和《DALL·E: Creating Images from Text》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论