作者:Myeongjun Jang,Thomas Lukasiewicz

简介:针对预训练分布崩溃问题、本文提出了一种微调下游任务模型的新方法。以自监督方式训练的预训练语言模型(例如 BERT) 的最新发展正在推动 NLP 领域的快速进步。然而,他们出色的表现是基于利用训练数据的句法工件,而不是完全理解语言的内在含义。 。对虚假工件的过度利用会导致一个问题:分布崩溃问题,这是对下游任务进行微调的模型无法在产生高置信度分数的同时区分分布外 (OOD) 语句的现象。在本文中,作者认为分布崩溃是语言模型预训练中的一个普遍问题,并提出噪声熵正则化:NoiER、作为一种有效的学习范式,无需辅助模型、无需附加数据即可解决问题。与原始微调模型相比,本文所提出的方法将传统的 OOD 检测评估指标平均提高了 55%。

论文下载:https://arxiv.org/pdf/2110.02054.pdf

HUB地址:https://hub.baai.ac.cn/view/10548

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除