Co-training for Low Resource Scientific Natural Language Inference

简介

本文提出了一种新颖的协同训练方法，用于科学自然语言推理（NLI）任务，即预测从研究文章中提取的一对句子之间的语义关系。SciNLI是这个任务的第一个和最流行的数据集，基于远程监督的自动注释方法会导致标签噪声，从而不可避免地降低分类器的性能。我们的方法给远程监督的标签分配权重，这些权重基于分类器的训练动态，并反映它们在随后的训练时期中的使用方式。与现有的半监督学习（SSL）方法不同的是，我们考虑分类器的历史行为来评估自动注释标签的质量。此外，我们通过分配重要性权重而不是基于预测置信度的任意阈值过滤示例，最大化使用自动标记的数据，同时确保噪声标签对模型训练的影响最小。该方法在Macro F1上比远程监督基线提高了1.5％，在几个其他强大的SSL基线上也实现了实质性的改进。我们在Github上提供了代码和数据。
图表
解决问题

本论文试图提出一种新的半监督学习方法，以解决科学自然语言推理中自动注释标签的噪声问题，提高分类器的性能。
关键思路

本论文提出的新方法是一种基于半监督学习和共训练的方法，通过考虑分类器的历史行为来评估自动注释标签的质量，并为标签分配权重，以确保在最大化使用自动标记数据的同时，最小化噪声标签对模型训练的影响。
其它亮点

本论文在SciNLI数据集上进行了实验，并将提出的方法与现有的半监督学习方法进行了比较。实验结果表明，该方法相对于远程监督基线方法在Macro F1上提高了1.5％，并且相对于其他强大的半监督学习基线方法也有显著的改进。作者还提供了代码和数据集。
相关研究

与本文相关的研究包括科学自然语言推理任务和半监督学习方法。其中一些相关的论文包括：Sadat和Caragea（2022a）中提出的SciNLI数据集，以及Zhou等人（2021）和Zhang等人（2021）中提出的半监督学习方法。

Co-training for Low Resource Scientific Natural Language Inference

评论