作者: Emanuele Bugliarello , Fangyu Liu , Jonas Pfeiffer , 等

简介:为可复制性和全面性而设计的可靠评估基准推动了机器学习的进步。然而,由于缺乏多语言基准,视觉和语言研究主要集中在英语语言任务上。为了填补这一空白,作者引入了基于图像的语言理解评估基准。IGLUE 通过聚合预先存在的数据集和创建新数据集,汇集了 20 种不同语言的视觉问答、跨模态检索、基础推理和基础蕴涵任务。作者的基准,不仅在零样本的场景中,而且在新定义的少样本学习场景中 :能够评估用于迁移学习的多语言多模态模型。基于对可用的最先进模型的评估,作者发现:(1)翻译测试迁移优于零样本迁移,并且很少样本学习很难用于许多任务;(2)此外,下游性能部分由可用的未标记文本数据量来解释预训练,并且仅受目标-源语言的类型距离的影响。

作者希望通过向社区(https://iglue-benchmark.github.io/)发布基准来鼓励该领域的未来研究工作。 

 

论文下载:https://arxiv.org/pdf/2201.11732.pdf