GLUE 和 SuperGLUE 等多任务基准推动了自然语言处理(NLP)预训练和转移学习的进步,但这些基准测试主要侧重于一系列自然语言理解(NLU)任务,而没有考虑自然语言生成(NLG)模型。

这篇文章介绍了一个新的多任务基准——通用语言生成评估(GLGE),它可以用于评估八种语言生成任务中 NLG 模型的泛化能力,每个任务按照任务难度设计又被分为三个子任务,包括 GLGE-Easy,GLGE-Medium 和 GLGE-Hard,24 个子任务能够全面比较模型性能。为鼓励对 NLG 模型进行预训练和转移学习研究,研究人员将 GLGE 公开发布,并建立一个包括 MASS,BART 和 ProphetNet 的强大基准排行榜。

源代码和数据集链接 论文链接

内容中包含的图片若涉及版权问题,请及时与我们联系删除