最近,除了针对自然语言理解(NLU)任务设计的预训练语言模型,许多针对自然语言生成(NLG)任务而设计的预训练语言模型也被不断提出。然而,这些模型往往通过不同的任务、数据集、和评测指标进行评估,目前还没有一个统一的通用评测基准。为了填补 NLG 通用评测基准这一空缺,微软亚洲研究院提出了业内首个通用的语言生成评测基准 GLGE (General Language Generation Evaluation benchmark)。GLGE 提供了三种不同难度的的评测基准,以方便研究者们更全面或更有选择性地对模型进行评估。

近年来,多任务的评测基准(multi-task evaluation benchmark)推动了预训练语言模型如 BERT、RoBERTa、XLNet 等在 NLP 领域的发展。这些通用的评测基准(general evaluation benchmark)通常依靠在多个自然语言理解(NLU)任务上的综合情况来评估模型。比如,英文的 NLU 通用评测基准 GLUE 和 SuperGLUE,以及一些针对其他语言的评测基准,如中文的 CLUE、法文的 FLUE 和印度尼西亚文的 IndoNLU。此外,一些针对跨语言的评测基准也被提出,例如 XTREME 和 XGLUE。

然而,除了针对 NLU 任务设计的预训练语言模型外,最近许多针对自然语言生成(NLG)任务而设计的预训练语言模型也被不断提出,包括MASS、BERT-share、BART、ProphetNet、ERINE-GEN 等等。遗憾的是,这些模型往往通过不同的任务、数据集、和评测指标进行评估,目前还没有一个统一的通用评测基准。尽管现阶段已有一些如上面提到过的通用基准评测,但它们都不是为评估模型的语言生成能力而设计的。

为了填补 NLG 通用评测基准这一空缺,微软亚洲研究院自然语言计算组的研究员们提出了业界首个通用的语言生成评测基准GLGE(General Language Generation Evaluation benchmark)。GLGE 包含了四类典型的文本生成任务(生成式文本摘要、答案敏感的问句生成、对话式问答和个性化的对话)下的八个英文文本生成数据集(CNN/DM、Gigaword、XSUM、MSNews、SQuAD QG、MSQG、CoQA、PersonaChat),其中六个数据集是已经公开的常用 NLG 评测数据集,而另外两个数据集则是从现实场景中获取的新数据集。此外,类似 SuperGLUE 和 GLUE 是两种难度的评测基准,GLGE 提供了三种不同难度的的评测基准(GLGE-Easy、GLGE-Medium和GLGE-Hard),以方便研究者们更全面或更有选择性地对模型进行评估。

GLGE 基准依照以下几个原则进行设计与构建:

1)任务多样性,包括输入输出文本的长度、生成文本的类型和数据集大小等等。

2)难度多样化,GLGE 提供了三种不同难度的基准,科研人员可以根据模型的大小和使用的预训练语料库的规模选择难度适中的基准进行评估和比较。

3)任务的流行度和定义明确,GLGE 选择了六个现有的且已被 NLG 社区默认为是具有挑战性和研究价值的数据集。同时,GLGE 也从真实场景中选择了两个新数据集,这两个新的数据集的测试集是隐藏非公开的,从而进一步确保了评估的公平性。所有数据集经过预处理且输入和输出均已明确定义,微软亚洲研究院的研究员们期望这样有利于科研人员更专注于模型本身的改进。

4)任务易于自动评估。一些无条件或弱条件的语言生成任务,如单轮闲聊、答案不确定的问句生成等,它们合理的生成结果是多种多样的,难以通过有限数量的参考集进行自动评测。因此,GLGE 倾向于选择条件较强的语言生成任务,这样的任务对生成结果有更加明确的条件限制,有助于自动评估。

了解更多技术细节,请点击阅读原文查看论文: GLGE: A New General Language Generation Evaluation Benchmark 论文链接:https://arxiv.org/abs/2011.11928 数据集下载及代码链接:https://github.com/microsoft/glge 公开排行榜链接:https://microsoft.github.io/glge/

内容中包含的图片若涉及版权问题,请及时与我们联系删除