From Pixels to Prose: A Large Dataset of Dense Image Captions

2024年06月14日
  • 简介
    训练大型视觉语言模型需要大量高质量的图像-文本对。然而,现有的网络爬取数据集存在噪声并且缺乏详细的图像描述。为了弥补这一差距,我们介绍了PixelProse,一个包含超过1600万个综合数据集的数据集,利用先进的视觉语言模型进行详细和准确的描述。为确保数据的完整性,我们严格分析了数据集中的问题内容,包括儿童色情材料(CSAM)、个人身份信息(PII)和有害内容。我们还提供了有价值的元数据,例如水印存在和美学评分,有助于进一步筛选数据集。我们希望PixelProse能成为未来视觉语言研究的宝贵资源。PixelProse可在https://huggingface.co/datasets/tomg-group-umd/pixelprose上获取。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决大规模视觉语言模型训练所需的高质量图像-文本对的问题,提供一个包含超过16M细节准确的图片描述的综合数据集。
  • 关键思路
    PixelProse是一个综合的数据集,包含了超过16M个合成生成的图片描述,使用先进的视觉语言模型来生成详细和准确的描述。为了确保数据的完整性,作者对数据集进行了严格的分析,排除了可能存在的问题内容,并提供了有价值的元数据,如水印存在和美学分数等。
  • 其它亮点
    论文提供了一个细节准确的数据集PixelProse,作者对数据集进行了严格的分析,排除了可能存在的问题内容,并提供了有价值的元数据,如水印存在和美学分数等。数据集已经开源,可供研究使用。论文还提出了一种新的解决方案,使用合成生成的图片描述来训练大规模视觉语言模型。
  • 相关研究
    最近的相关研究包括:1)ImageNet数据集,2)COCO数据集,3)Flickr30k数据集等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问