DOCCI: Descriptions of Connected and Contrasting Images

2024年04月30日
  • 简介
    视觉语言数据集对于文本到图像(T2I)和图像到文本(I2T)研究至关重要。然而,当前的数据集缺乏细致详尽的描述,这些描述可以让模型学习到更丰富的关联性。为了填补这一空白,我们介绍了“连接和对比图像描述”(DOCCI)数据集,该数据集包含长篇的人工注释英文描述,用于描述由单个研究人员拍摄、策划和捐赠的1.5万张图像,旨在捕捉关键挑战,如空间关系、计数、文本渲染、世界知识等。我们要求人类注释者为每个图像创建全面的描述;这些描述平均长度为136个单词,并且被制作成可以清晰地将每个图像与相关或相似的图像区分开来的形式。每个描述都是高度组合的,通常涵盖多个挑战。通过定量和定性分析,我们证明DOCCI是一种有效的图像到文本生成训练资源-在DOCCI上微调的PaLI 5B模型的结果与高性能的更大型模型(如LLaVA-1.5 7B和InstructBLIP 7B)相当或更好。此外,我们还展示了DOCCI是一个有用的文本到图像生成测试平台,突显了当前文本到图像模型在捕捉长描述和细节方面的局限性。
  • 图表
  • 解决问题
    本论文旨在解决当前图像描述数据集中细节不够丰富的问题,提出了一个新的数据集DOCCI,旨在为图像描述和文本生成领域提供更好的训练资源。
  • 关键思路
    该论文提出了DOCCI数据集,其中包含15k张图像和详细的英文描述,注重捕捉图像中的细节和挑战,如空间关系、计数、文本渲染、世界知识等。通过定量和定性分析,证明DOCCI对于图像到文本生成领域是一个有效的训练资源,并且在文本到图像生成领域也有潜在的应用价值。
  • 其它亮点
    DOCCI数据集的描述具有高度的组合性和丰富的细节,实验结果表明,使用DOCCI进行微调的模型在图像到文本生成领域的表现优于其他大型模型。此外,DOCCI还可以作为文本到图像生成领域的测试平台,揭示了当前模型在捕捉长描述和细节方面的局限性。
  • 相关研究
    在相关研究中,最近的一些工作包括COCO、Flickr30k、Visual Genome等常用的图像描述数据集,以及一些文本到图像生成的研究如AttnGAN、DALL-E等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论