作者:Alex Tamkin, Vincent Liu, Rongfei Lu,等

简介:本文主要研究基于预训练模型的域适应问题、并提出DABS基准。自监督学习算法,包括 BERT 和 SimCLR,在自然语言处理、计算机视觉和语音处理等领域取得了重大进展。然而,这些算法是特定领域的,这意味着必须为每个新环境开发新的自监督学习算法,包括无数的医疗保健、科学和多模式领域。为了促进未知领域方法的进展,作者引入了 DABS:自监督学习的未知领域基准。为了在 DABS 上表现良好,算法在七个不同的领域进行评估:自然图像、多通道传感器数据、英文文本、语音记录、多语言文本、胸部 X 光片和带有文本描述的图像。每个域都包含一个未标记的数据集用于预训练; 然后根据模型在域中一组标记任务上的下游性能对模型进行评分。作者还介绍了 e-Mix 和 ShED:两种基线的未知域算法;他们相对温和的表现表明,在自监督学习成为任意领域的开箱即用解决方案之前,需要取得重大进展。基准数据集和基线算法的代码可从 https://github.com/alextamkin/dabs 获得。

论文下载:https://arxiv.org/pdf/2111.12062.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除