在过去几年的改进下,NLP 模型的能力越来越强大。性能大幅提升导致之前的基准测试已经无法满足当下的需求。如AI Index Report 2021所言,最近的模型在SuperGLUE和SQuAD等测试的基准上面达到了超越人类的表现。这是否说明,我们已经掌握了处理自然语言的方法呢?答案是没有。
现在的模型具备强大的语言理解能力,我们很难再用准确率、BLEU 这种单一指标和静态基准、抽象任务公式的传统做法评估 NLP 模型。所以,我们需要设计新的基准来评估模型,并且让它在今后发挥作用。
这篇文章的主要内容是:NLP 基准测试所面临的挑战、机遇和一些改进的建议。我们希望这篇文章可以让读者了解这方面科研的最新进展,也要让初学者全面了解NLP。文中还涉及到最近的论文、ACL 2021 演讲以及ACL 2021 基准测试研讨会的观点,其中许多观点涉及到了过去、现在和未来。
目录:
-
什么是基准?
-
基准测试简史
-
指标很重要
-
考虑下游用例
-
细粒度评估
-
基准性能的长尾
-
大规模持续评估
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢