ACL 2022丨小样本自然语言理解的基准测试FewNLU

预训练模型如火如荼，但基于预训练模型的小样本自然语言理解领域尚缺乏一个标准的评价准则，改论文提供了解决方法。

论文地址：http://keg.cs.tsinghua.edu.cn/jietang/publications/ACL22-Zheng-et-al-FewNLU.pdf

我们强调并解决小样本自然语言理解评价中三方面问题：(1) 提出一个新的小样本自然语言理解评价框架FewNLU，并且从三个关键方面(即测试集小样本学习性能、测试集和验证集相关性、以及稳定性) 量化评估该评价准则的优势。(2) 在新的评价框架下，本文对该领域近期的先进方法以及它们的组合方法，在相同的标准下进行了重新评价。重新评价的结果揭示一系列颠覆以往的新结论。(3) 我们开源工具包FewNLU，其中实现了提出的标准评价框架以及领域先进的基准方法；并且构建Leaderboard

对小样本自然语言评价体系的衡量，我们提出衡量小样本评价体系的关键性指标，分别是：最终测试集小样本学习性能、测试集和验证集关于一个超参数空间分布的相关性、以及稳定性。同时我们以量化实验的方式，对几种候选的评价策略进行比较以论证其有效性。已有实验结果如下，可以看出，多次数据划分(Multi-Splits)是比K折交叉验证(CV)和最短描述距离(MDL)更好的数据拆分策略。

此外，我们还通过基于上述提出的小样本自然语言理解评价框架，对已有的先进小样本学习基线方法进行重新评估和比较，如下图展示。重新评估的结果揭示出一系列新发现和结论：

结论1: 小样本学习方法的绝对性能和相对性能差异，和先前相关工作中的结论不同，即在先前文献中未被准确估计。此外小样本方法（例如 ADAPET）在像 DeBERTa 这样的大型模型上的优势会显著降低。半监督少样本方法（例如 iPET和Noisy Student）的增益在较大的模型上也可以保持一致性。
结论2: 不同小样本学习方法的增益在很大程度上是互补的。通过将目前各种先进方法组合，它们可以实现优于任意单一方法的小样本学习性能。目前最佳组合方法的小样本学习性能，接近RoBERTa上实现的全监督性能；但和目前DeBERTa上实现的最优全监督性能相比，它仍然存在较大的差异性。
结论3: 实验表明，已有相关工作中不存在单一的小样本学习方法能够在大多数NLU任务上取得主导性优势性能。这为未来进一步开发出具有跨任务一致性和鲁棒性的小样本学习方法提出新的挑战。

来源：微博@唐杰

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ACL 2022丨小样本自然语言理解的基准测试FewNLU

评论列表

评论