【论文标题】Bayesian Active Learning with Pretrained Language Models 

【作者团队】Katerina Margatina, Loic Barrault, Nikolaos Aletras

【发表时间】2021/04/16

【机 构】谢菲尔德大学,英国

【论文链接】https://arxiv.org/pdf/2103.03547v4.pdf

【推荐理由】贝叶斯主动学习与预训练的融合,未来将在各种数据成本高的场景上有所发挥

 

主动学习(AL是一种从无标签的数据池中反复选择数据进行标注的方法,目的是为达到比随机选择更好模型性能以前自语言处理中的主动学习方法仅限于特定任务的模型,这些模型在每次迭代时只使用手头的标记数据从头开始训练,或者使用现成的预训练语言模型,并不能有效地适应下游任务需要。本文通过引入融合BALM(贝叶斯主动学习)与预训练语言模型来解决这些限制。作者首先提出通过继续训练所有可用的无标签的数据来使预训练语言模型适应下游任务,然后将其用于主动学习。作者还提出了一个简单而有效的调方法,以确保在AL期间,自适应的语言模型在低资源和高资源情况下都确保可以训练。最后作者蒙特卡洛dropout应用于游模型以获得经过良好校准的用于不确定性采样的置度分数。作者在五个标准自然语言理解任务中实验表明,与最近AL文献中提出的各种获取函数、模型和微调方法组合相,BALM在数据利用效率有很大幅度提升。下图为贝叶斯主动学习的算法。

本文在acquisition function中比较了以下几种,相关函数代码来自https://github.com/forest-snow/alps:

1. Random

2. Entropy,根据Entropy计算公式选取熵值最高结果进行采样

3. BADGE, 根据loss梯度的多样性进行采样

4. BERT-KM(ALPS),使用K-Means聚类l2正则化的预训练BERT-embedding并且对聚类中心样本进行采样,该方法与ALPS除去使用预训练embedding之外,完全一样

5. FT-BERT-KM,与上文的BERT-KM使用的embedding为fine-tune后的模型隐变量,其他一模一样

下图为在不同数据集上结果,虚线为BERT-finetuning的标准操作,实线为结合了贝叶斯主动学习后的结果,可以发现优于传统预训练方法。同时,在acquisition function上Entropy表现较好。

内容中包含的图片若涉及版权问题,请及时与我们联系删除