From Pixels to Prose: A Large Dataset of Dense Image Captions

向作者提问

NEW

简介

训练大型视觉语言模型需要大量高质量的图像-文本对。然而，现有的网络爬取数据集存在噪声并且缺乏详细的图像描述。为了弥补这一差距，我们介绍了PixelProse，一个包含超过1600万个综合数据集的数据集，利用先进的视觉语言模型进行详细和准确的描述。为确保数据的完整性，我们严格分析了数据集中的问题内容，包括儿童色情材料(CSAM)、个人身份信息(PII)和有害内容。我们还提供了有价值的元数据，例如水印存在和美学评分，有助于进一步筛选数据集。我们希望PixelProse能成为未来视觉语言研究的宝贵资源。PixelProse可在https://huggingface.co/datasets/tomg-group-umd/pixelprose上获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决大规模视觉语言模型训练所需的高质量图像-文本对的问题，提供一个包含超过16M细节准确的图片描述的综合数据集。
关键思路

PixelProse是一个综合的数据集，包含了超过16M个合成生成的图片描述，使用先进的视觉语言模型来生成详细和准确的描述。为了确保数据的完整性，作者对数据集进行了严格的分析，排除了可能存在的问题内容，并提供了有价值的元数据，如水印存在和美学分数等。
其它亮点

论文提供了一个细节准确的数据集PixelProse，作者对数据集进行了严格的分析，排除了可能存在的问题内容，并提供了有价值的元数据，如水印存在和美学分数等。数据集已经开源，可供研究使用。论文还提出了一种新的解决方案，使用合成生成的图片描述来训练大规模视觉语言模型。
相关研究

最近的相关研究包括：1）ImageNet数据集，2）COCO数据集，3）Flickr30k数据集等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问