【论文标题】 MASKER: Masked Keyword Regularization for Reliable Text Classification 【作者团队】Seung Jun Moon,Sangwoo Mo,Kimin Lee,Jaeho Lee,Jinwoo Shin 【发表时间】AAAI 2021 【论文链接】https://arxiv.org/abs/2012.09392 【论文代码】https://github.com/alinlab/MASKER 【推荐理由】方法提出了掩码关键字正则化(masked keyword regulation,MASKER),解决了对关键字的过度依赖问题,有利于基于上下文的预测。 预先训练的语言模型已经在各种文本分类任务上达到了最先进的准确性,例如情感分析、自然语言推理和语义文本相似性。然而,经过调优的文本分类器的可靠性是一个经常被忽视的性能标准。例如,一个人可能想要一个模型,它可以检测出分布异常(OOD)样本(从远离训练分布的地方抽取),或者对域转移具有鲁棒性。我们认为,可靠性的一个主要障碍是模型对有限数量的关键字的过度依赖,而不是查看整个上下文。特别地,我们发现(a) OOD样本通常包含独立关键字,而(b)跨域样本可能不总是包含关键字;在这两种情况下,过度依赖关键字都会带来问题。根据这一观察,我们提出了一种简单但有效的微调方法,即掩蔽关键字正则化(MASKER),它有助于基于上下文的预测。MASKER将该模型正则化,从剩余的单词重建关键字,并在没有足够上下文的情况下进行低置信度预测。当应用于各种预先训练的语言模型(如BERT、RoBERTa和ALBERT)时,我们证明掩码器在不降低分类精度的情况下改善了OOD检测和跨域泛化。

内容中包含的图片若涉及版权问题,请及时与我们联系删除