作者:Dominic Petrak, Nafise Sadat Moosavi, Iryna Gurevych

简介:当开箱即用地应用于需要对数字进行推理的任务时,最先进的预训练语言模型往往表现不佳。最近的研究认为这有两个主要原因:(1)流行的标记化算法针对常用词进行了优化,因此对数字的表达能力有限,(2)常见的预训练目标根本不针对数字推理或理解数字。最近的方法通常单独解决它们,主要是通过提出架构更改或从头开始预训练模型。在本文中,作者提出了一种新的扩展预训练方法,称为推理感知预训练,以共同解决这两个缺点,而无需更改架构或从头开始进行预训练。使用对比学习,作者的方法将另一种数字表示纳入已经预训练的模型中,同时通过对称为可推断数字预测任务的新型预训练目标进行训练来提高其数值推理能力。作者在需要数值推理的三个不同任务上评估作者的方法,包括 (a) DROP 数据集中的阅读理解,(b) InfoTabs 数据集中的表格推理,以及 (c) WikiBio 中的表格到文本生成和SciGen 数据集。作者在 DROP 和 InfoTabs 上的结果表明,作者的方法在这些数据集上分别提高了 9.6 和 33.9 个点的准确性。作者对 SciGen 和 WikiBio 的人工评估表明,作者的方法提高了所有数据集真实的正确性。

论文下载:https://arxiv.org/pdf/2205.06733

内容中包含的图片若涉及版权问题,请及时与我们联系删除