超越准确率：使用检查表对NLP模型进行行为测试

本文获ACL2020最佳论文奖。首先分析了当下评估方法如何会高估NLP模型的性能，作者借鉴软件工程的思想，提出一套完整的NLP模型测试方法——CheckList，一种任务无关的NLP模型性能测试方法，并提供了强大的开源测试工具。实验证明了CheckList发现模型漏洞的能力有显著提高，确实能对NLP模型进行更为细致全面的测评。这篇论文提出的新的NLP模型测试方法科学性和合理性充足，有较高的参考价值。