【论文标题】WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning 【作者团队】K Srinivasan, K Raman, J Chen, M Bendersky, M Najork 【发表时间】2021/03/02 【机 构】谷歌 【论文链接】https://arxiv.org/pdf/2103.01913.pdf
【推荐理由】本文来自谷歌,针对当前多模态数据集缺乏的现状,构建了基于维基百科的图像文本数据集(WIT),以更好地促进多模态、多语言学习。
深度表示学习和预训练技术是一项里程碑式的改进,在下游的NLP、IR和Vision任务中都带来了巨大的性能提升。多模态建模技术旨在利用大量高质量的视觉-语言数据集来学习互补信息(跨图像和文本模式),基于此,本文构造了基于维基百科的多模态多语言机器学习图文数据集WIT。WIT由3760万个实体丰富的图文样本组成,包括1150万张独特的图片,横跨108种维基百科语言。其规模使WIT能够作为多模态模型的预训练数据集,WIT有四个主要和独特的优势:首先,WIT是最大的多模态数据集,按图-文样本的数量计算,它是现有最大规模的3倍。第二,WIT是大规模的多语言数据集,覆盖100多种语言(每种语言至少12K样本),并为许多图片提供跨语言文本。第三,相对于之前的数据集所覆盖的内容,WIT代表了更多样化的概念和现实世界的实体。最后,WIT提供了一个非常具有挑战性的现实世界测试集,以图像-文本检索任务为例进行了实证说明。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢