- 简介神经网络的视觉和视觉语言应用(如图像分类和字幕)依赖于需要非常复杂的数据收集过程的大规模注释数据集。这种耗时的工作阻碍了大规模数据集的出现,限制了研究人员和实践者的选择。因此,我们寻求更有效的方法来收集和注释图像。以前的尝试从HTML alt-text和社交媒体帖子中收集字幕,但这些数据源存在噪声,稀疏或主观性。因此,我们转向商业购物网站,其数据满足三个标准:干净,信息丰富和流畅。我们介绍了“Let's Go Shopping”(LGS)数据集,这是一个大规模的公共数据集,包括来自公开电子商务网站的1500万个图像-字幕对。与现有的通用领域数据集相比,LGS图像聚焦于前景对象,并且具有较简单的背景。我们在LGS上进行的实验表明,基于现有基准数据集训练的分类器不能很好地推广到电子商务数据,而特定的自我监督视觉特征提取器可以更好地推广。此外,LGS的高质量电子商务重点图像和双模性质使其在视觉语言双模任务中具有优势:LGS使图像字幕模型能够生成更丰富的字幕,并帮助文本到图像生成模型实现电子商务风格转换。
- 图表
- 解决问题解决图像分类和图像描述等视觉和视觉语言应用中数据集收集和注释的低效问题。
- 关键思路通过从商业购物网站收集数据,构建了一个干净、信息丰富、流畅的大规模图像-描述对数据集,名为Let's Go Shopping(LGS),并发现现有基准数据集上训练的分类器不容易推广到电子商务数据,而特定的自监督视觉特征提取器可以更好地推广。
- 其它亮点LGS数据集具有高质量的电子商务重点图像和双模态性质,可用于丰富图像描述和帮助文本到图像生成模型实现电子商务风格转换。实验表明,LGS数据集中的图像主要关注前景对象,背景较为简单。
- 相关研究包括从HTML alt-text和社交媒体帖子中收集标题的先前尝试,但这些数据来源存在噪声、稀疏或主观性问题。
沙发等你来抢
去评论
评论
沙发等你来抢