GLGE：新的通用语言生成评估基准

GLUE 和 SuperGLUE 等多任务基准推动了自然语言处理（NLP）预训练和转移学习的进步，但这些基准测试主要侧重于一系列自然语言理解（NLU）任务，而没有考虑自然语言生成（NLG）模型。

这篇文章介绍了一个新的多任务基准——通用语言生成评估（GLGE），它可以用于评估八种语言生成任务中 NLG 模型的泛化能力，每个任务按照任务难度设计又被分为三个子任务，包括 GLGE-Easy，GLGE-Medium 和 GLGE-Hard，24 个子任务能够全面比较模型性能。为鼓励对 NLG 模型进行预训练和转移学习研究，研究人员将 GLGE 公开发布，并建立一个包括 MASS，BART 和 ProphetNet 的强大基准排行榜。