DeepMind研究科学家：NLP基准测试的现在、过去和未来

在过去几年的改进下，NLP 模型的能力越来越强大。性能大幅提升导致之前的基准测试已经无法满足当下的需求。如AI Index Report 2021所言，最近的模型在SuperGLUE和SQuAD等测试的基准上面达到了超越人类的表现。这是否说明，我们已经掌握了处理自然语言的方法呢？答案是没有。

现在的模型具备强大的语言理解能力，我们很难再用准确率、BLEU 这种单一指标和静态基准、抽象任务公式的传统做法评估 NLP 模型。所以，我们需要设计新的基准来评估模型，并且让它在今后发挥作用。

这篇文章的主要内容是：NLP 基准测试所面临的挑战、机遇和一些改进的建议。我们希望这篇文章可以让读者了解这方面科研的最新进展，也要让初学者全面了解NLP。文中还涉及到最近的论文、ACL 2021 演讲以及ACL 2021 基准测试研讨会的观点，其中许多观点涉及到了过去、现在和未来。