Multilingual Diversity Improves Vision-Language Representations

2024年05月27日
  • 简介
    大规模网络爬取的图像文本数据集为最近多模态学习的进展奠定了基础。这些数据集旨在训练模型在标准计算机视觉基准上表现良好,其中许多基准已被证明是以英语为中心的(例如ImageNet)。因此,现有的数据筛选技术倾向于使用主要是英语的图像-文本对,并丢弃许多潜在有用的非英语样本。我们的工作对这种做法提出了质疑。多语言数据本质上是丰富的,不仅因为它提供了学习文化显著概念的途径,而且因为它以不同于单语言数据的方式描绘了共同的概念。因此,我们进行了系统研究,探索使用更多非英语来源的样本对英语视觉任务的性能优势。通过将原始网络爬取的所有多语言图像文本对翻译成英语并重新筛选它们,我们增加了(翻译后的)多语言数据在结果训练集中的普及程度。在这个数据集上进行预训练的效果优于仅使用英语或以英语为主导的数据集在ImageNet、ImageNet分布转移、图像-英语-文本检索以及DataComp基准测试的38个任务平均表现。在地理多样化的任务GeoDE上,我们还观察到在所有地区都有提高,非洲地区的提高最大。此外,我们定量地表明英语和非英语数据在图像和(翻译后的)文本空间中显著不同。我们希望我们的发现能够激励未来的工作更有意识地包含多元文化和多语言数据,不仅仅是在涉及非英语或地理多样化的任务时,而是为了增强模型的能力。
  • 图表
  • 解决问题
    论文试图通过研究使用非英语数据对计算机视觉任务的性能影响,探讨在多语言和多文化数据集中训练模型的益处。
  • 关键思路
    论文通过将多语言图像文本对翻译为英语并重新过滤,增加了(翻译后的)多语言数据在训练集中的比例,证明了在ImageNet、ImageNet分布转移、图像-英文-文本检索和DataComp基准测试的38个任务中,使用多语言数据进行预训练可以优于仅使用英语数据或以英语为主导的数据集。
  • 其它亮点
    论文的实验设计包括在多个任务和数据集上进行测试,并证明了多语言数据在提高模型性能方面的潜力。研究还定量展示了英语和非英语数据在图像和(翻译后的)文本空间中的显著差异。论文开源了代码和数据集,供其他研究者使用。
  • 相关研究
    在最近的相关研究中,也有研究探讨了多语言数据对模型性能的影响,如《Towards Multilingual Image Captioning with Unpaired Datasets》、《Multilingual Image Captioning with Common Semantic Space》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论