【论文标题】Multimodal Pretraining Unmasked: Unifying the Vision and Language BERTs 【作者团队】Emanuele Bugliarello,Ryan Cotterell ,Naoaki Okazaki,Desmond Elliot 【发表时间】2020/12/01 【论文链接】https://arxiv.org/pdf/2011.15124.pdf 【代码链接】https://github.com/e-bug/volta

【推荐理由】 本文出自由来自哥本哈根大学、剑桥大学、苏黎世联邦理工学院、东京工业大学的研究人员组成的研究团队,针对当下流行的「视觉-语言」BERT 提出了一种统一的数学分析框架,发现了训练数据和超参数是造成这些差异最主要的原因,嵌入层在这些大型模型中起着至关重要的作用。

如今,对于计算机视觉和自然语言处理领域的诸多人物来说,使用大规模预训练并针对特定任务进行调优成为了一种「标准」方法。最近,研究者们提出了多种方法来预训练视觉和语言 BERT,从而应对这两个人工智能的关键研究领域的交叉性挑战。通常而言,这些模型可以被分为单流或双流编码器。

在本文中,作者研究了这两个研究领域之间的差异,并说明了如何在同一个理论框架下将二者统一。作者进行了对照实验,从而识别出五种「视觉-语言」BERT 之间的实证差异。实验结果表明,训练数据和超参数是造成这些差异最主要的原因,嵌入层在这些大型模型中起着至关重要的作用。

图 1:统一的数据和实现结果。

本文的贡献如下: (1)提出了一种统一的数学框架,目前提出的「视觉-语言」BERT 知识该框架的一个子集(2)发布了该框架的一种 PyTorch 实现代码,旨在促进多模态预训练研究 (3)进行了大量对比实验,发现:一些模型在相同条件下的性能相当;尽管单流和双流模型性能相当,但这两类模型的差异十分大;嵌入层具有至关重要的作用 (4)目前的「视觉-语言」BERT 模型对于权值初始化十分敏感。

内容中包含的图片若涉及版权问题,请及时与我们联系删除