标题：阿里|270亿参数、刷榜CLUE，阿里达摩院发布最大中文预训练语言模型PLUG

经历「大炼模型」后，人工智能领域正进入「炼大模型」时代。自去年 OpenAI 发布英文领域超大规模预训练语言模型 GPT-3 后，中文领域同类模型的训练进程备受关注。今日，阿里达摩院发布了 270 亿参数、1TB + 训练数据的全球最大中文预训练语言模型 PLUG，并以 80.614 的分数刷新了中文语言理解评测基准 CLUE 分类榜单历史纪录，刚刚在最权威的中文语言模型榜单 CLUE 上拿到了分类领域第一。本文从预训练模型发展现状、技术路线、技术细节和生成示例角度详细描述了PLUG模型。

中文预训练模型发展现状

自 18 年谷歌 BERT 横空出世以来，预训练语言模型一跃成为自然语言处理领域的研究热点，海量数据与大规模模型的预训练 + 少量下游任务数据微调（Pre-training + Fine-tune）也成为 NLP 任务的新范式。从在开源数据集上进行评测到业务实践中的价值体现，预训练语言模型都被证明能够显著提高模型性能和算法效果。如果说预训练语言模型是 2019 年以来 NLP 领域的关键词，随着 GPT 系列模型的诞生，各大公司和研究机构的军备竞赛为其又冠上了大规模这一限定词。在这一态势下，亟需建立以中文为核心的超大规模预训练模型。

2020 年 11 月份，北京智源人工智能研究院和清华大学研究团队合作开展大规模预训练模型，并发布清源 CPM (Chinese Pretrained Models) 研究计划，旨在推动中文自然语言处理的研究与应用。清源 CPM 计划将依托智源研究院新建的人工智能算力平台，建立以中文为核心的超大规模预训练模型，进行基于超大规模预训练语言模型的少次学习能力以及多任务迁移能力研究，探索更具通用能力的语言深度理解技术。2020 年 11 月中旬，CPM 开放第一阶段的 26 亿参数规模的中文语言模型 (CPM-LM) 和 217 亿参数规模的结构化知识表示模型 (CPM-KM) 下载，以及相应的系统演示。

关于预训练模型的大量实验表明，更大的模型参数和更多的预训练数据，通常能够带来更好的下游任务效果，这类模型被证明在各种少样本学习 NLP 任务中十分有效。传统预训练模型往往需要经过有监督训练数据微调 (Fine-tuning)，才能解决各种自然语言处理任务。而第一版 CPM 中文语言模型与 GPT-3 等预训练模型类似，仅需要通过少次、单次学习甚至零次学习，就能完成不同自然语言处理任务，具备一定的常识和认知的泛化能力。CPM 模型从大规模的中文语料库中学习了通用的语言模式，有望显著提升中文自然语言处理各任务的性能。初步的实验表明，CPM 模型能够用于问题解答、摘要和对话以及生成各种文本包括随笔、小说、代码、电子表格等。

按照清源 CPM 的规划，2021 年 7 月份到 9 月份，整个模型将包含约 1000 亿参数，训练数据包括 1TB 以中文为核心的多语言数据和亿级实体关系图谱。

如今，阿里巴巴正式发布 PLUG，再一次推进了中文社区预训练模型的发展。接下来，PLUG 将扩大参数规模至 2000 亿级，并进一步提升文本生成质量。除以中文为核心的 PLUG（270 亿参数）外，达摩院还联合智源研究院、清华大学发布了面向认知的超大规模新型预训练模型“文汇”（113 亿参数），以及联合清华大学发布了超大规模多模态预训练模型“M6”（千亿参数）。

与 PLUG 发布同步，达摩院宣布近期将开源阿里巴巴语言模型体系大部分重要模型。阿里达摩院语言技术实验室负责人司罗表示，“达摩院 NLP 团队将进一步攻克自然语言处理领域科研难题，完善中文及跨语言人工智能基础设施，让 AI 没有难懂的语言，并探索通用人工智能之路。”

自 2018 年谷歌发布 BERT 以来，预训练模型（Pre-trained Models, PTMs）逐渐成为自然语言处理领域的主流。2020 年 5 月，OpenAI 发布了拥有 1750 亿参数量的预训练模型 GPT-3。作为一个语言生成模型，GPT-3 不仅能够生成流畅自然的文本，还能完成问答、翻译、创作小说等一系列 NLP 任务，甚至进行简单的算术运算，并且其性能在很多任务上都超越相关领域的专有模型，达到 SOTA 水平。

在这样的发展态势下，构建以中文为核心的超大规模预训练模型及生态势在必行。

4 月 19 日，在以中文为核心的超大规模语言模型领域，阿里巴巴达摩院机器智能实验室重磅发布最新训练的 270 亿参数规模的中文语言理解和生成统一模型 --PLUG (Pre-training for Language Understanding and Generation)。

据了解，PLUG 采用了 1TB 以上高质量中文文本训练数据，涵盖新闻、小说、诗歌、问答等广泛类型及领域，其模型训练依托了阿里云 EFLOPS 高性能 AI 计算集群。

PLUG 超大规模预训练中文理解 & 生成统一模型，是目前中文社区最大规模的纯文本预训练语言模型，集语言理解与生成能力于一身。其目标是通过超大模型的能力，大幅度提升中文 NLP 各大任务的表现，取得超越人类表现的性能。

根据阿里巴巴达摩院的介绍，相较于 Open AI 的 GPT-3 等其他大规模生成模型，PLUG 具备如下几个优势：

PLUG 是目前中文社区最大规模的纯文本预训练语言模型。
PLUG 集语言理解与生成能力于一身，在语言理解（NLU）任务上，以 80.179 分刷新了 Chinese GLUE 分类榜单的纪录；在语言生成（NLG）任务上，在多项应用数据上较 State-of-the-art 平均提升 8% 以上。
PLUG 可为目标任务做针对性优化，通过利用下游训练数据 finetune 模型使其在该特定任务上生成质量达到最优，弥补之前其它大规模生成模型 few-shot inference 的生成效果不足，适于应用在实际生成任务。
PLUG 采用了大规模的高质量中文训练数据（1TB 以上），同时，PLUG 采用 encoder-decoder 的双向建模方式，因此，在传统的 zero-shot 生成的表现上，无论是生成的多样性，领域的广泛程度，还是生成长文本的表现，较此前的模型均有明显的优势。
PLUG 开放了体验功能供学术领域试用。

在最新的中文语言理解评测基准（CLUE）中，PLUG 研发团队在 CLUE 的分类任务上测试了 PLUG 的语言理解能力，仅使用若干组超参数训练的下游模型的 ensemble 结果，即取得了第一的成绩。

在超大规模预训练模型领域，除了以中文为核心的 PLUG 外，达摩院、阿里云计算平台团队还联合智源研究院、清华大学发布了面向认知的超大规模新型预训练模型「文汇」，以及联合清华大学发布了超大规模多模态预训练模型「M6」。此外，达摩院宣布近期将开源阿里巴巴语言模型体系部分重要模型。阿里达摩院语言技术实验室负责人司罗表示：「达摩院 NLP 团队将进一步攻克 NLP 领域科研难题，完善中文及跨语言人工智能基础设施，让 AI 没有难懂的语言，并探索通用人工智能之路」。

研发历程

说了这么多，要达到这样的效果，这个中文最强GPT-3究竟如何炼成？

PLUG，Pre-training for Language Understanding and Generation，顾名思义，就是集语言理解（NLU）和生成（NLG）能力于一身。

要实现这一点，据团队介绍，这一模型是达摩院此前提出的两种自研模型——NLU语言模型StructBERT、NLG语言模型PALM的融合。

此外，跟GPT-3的单向建模方式不同的是，它采用了编码器-解码器（encoder-decoder）的双向建模方式。

具体来说，整个训练过程分为两个阶段。

第一阶段，以达摩院自研的语言理解模型——StructBERT作为编码器。

简单来说，它是在句子级别和词级别两个层次的训练目标中，加强对语言结构信息的建模，从而提高模型的语法学习能力。

这也使得PLUG具有输入文本双向理解能力，能够生成和输入更相关的内容。

这个过程共训练了300B tokens训练数据。

第二阶段，将这个编码器用于生成模型的初始化，并外挂一个6层、8192个隐藏层节点数的解码器，共计训练了100B tokens的训练数据。

此外，PLUG还能为目标任务做针对性优化。

GPT-3并没有利用微调和梯度更新，而是通过指定任务、展示少量演示，来与模型文本进行交互，完成各种任务。

因此在面对新任务时候，不需要重新收集大量的带标签数据。但不可避免的，生成的效果不足。

比如，犯低级错误就是GPT-3被人诟病比较多的一点。

而PLUG的能力更加全面，既可以实现与GPT-3类似的零样本生成功能，也可以利用下游训练数据微调（finetune）模型，提升特定任务的生成质量。

当然，效果实现的关键，还少不了算力和数据。

PLUG负责人表示，原本计划用128张A100训练120天炼成，不过由于阿里云、算法优化等达摩院多方力量的参与，以及加速手段的有效利用，成功将日程缩短到三分之一。

最后，只烧了35天就达到了这样的效果。

前面也提到，PLUG的参数量达到了270亿，中文训练数据量也达到了1T以上。

在语言理解任务上，PLUG以80.614分刷新了CLUE分类任务榜单记录。

而在语言生成任务上，据团队介绍，其多项应用数据较业内最优水平提升了8%以上。

PLUG定义

如果再把PLUG说成是“中文版GPT-3”，似乎就不太准确了。

耗时3个月、270亿参数规模、一发布就给体验端口……

但与此同时，这些关键词的背后，仍然留给读者一些疑问：

3个月是如何做到的？当前的参数规模是终点吗？为何现阶段就免费开放？

阿里深度语言模型体系负责人永春给出了一一解答。

首先，时间问题。主要有两个方面的原因。

从人力的角度来说，永春没有谈具体的数字，但此次涉及阿里的多个团队群策群力共同完成的，当中的训练时间也就大大缩短。

再加上，阿里以往的自研模型已经产生了更多的业务需求，促成了PLUG的开发，这也是阿里整体技术路线中的一环。

GPT-3的出现，给中国的一些玩家触动很大。

什么时候我们能出个中文版的同类模型？

阿里作为其中之一的企业，利用自身的技术、计算资源的优势，率先给出Demo。

永春表示，希望通过PLUG的发布，建立起与技术同行之间的桥梁。

要知道，GPT-3到目前也还没有做到完全开放。

不过，团队似乎并不担心PLUG发布之后的一些不确定性。

比如，出现一些低级错误。

反而笑着说，之前GPT-3不也是因为大家吐槽才火的么？丢给技术圈去检验，这些问题都是不可避免的。

而这样的开源开放，正好是这个技术团队的一大底色。

去年，阿里达摩院发布了自研深度语言模型体系，包括6大自研模型。

通用语言模型StructBERT、多模态语言模型StructVBERT、多语言模型VECO、生成式语言模型PALM……他们一直在致力于陆陆续续将模型开源出来。

永春透露，在PLUG发布这段期间，达摩院宣布将开源阿里巴巴语言模型体系部分重要模型，目前正在走流程中。

至于之后的计划，团队表示2000亿级的参数规模正在规划中，并进一步提升文本生成质量。

而在应用领域，他们还将专门针对医疗领域做下游数据训练。

最终目标是希望将这个模型实际落地，提升NLP技术在方方面面的实力，比如能源、通信、司法等。

也诚如阿里达摩院语言技术实验室负责人司罗所说，

达摩院NLP团队将进一步攻克自然语言处理领域科研难题，完善中文及跨语言人工智能基础设施，让AI没有难懂的语言，并探索通用人工智能之路。

对了，PLUG刚刚完成最后一波调控，目前已开放了测试体验接口。

PLUG 技术细节

此次大规模语言模型的训练，达摩院团队汲取二者所长，提出了一个简单的框架，用来进行 NLU&NLG 联合训练。相比于 GPT 系列模型，该大规模生成模型以 StructBERT 作为 encoder，具有很强的输入文本双向理解能力，从而可以生成和输入更相关的内容。

整个训练流程分为两个阶段：

首先在第一阶段，达摩院团队训练了一个 24 layers／8192 hidden size 的标准 StructBERT 模型作为 encoder。这个过程共计训练了 300B tokens 的训练数据，规模与 GPT-3 的训练规模相当；
在第二阶段，达摩院团队将这个 encoder 用于生成模型的初始化，并外挂了一个 6 layers / 8192 hidden size 的 decoder，在训练生成模型的过程中，在 encoder 端和 decoder 端均随机确定长度 [32, 512] 进行数据采样，确保适应下游广泛的生成任务。这一阶段共计训练了 100B tokens 的训练数据，前 90% 的训练中，团队保留了 Masked LM 任务以保持模型的 NLU 能力，后 10% 的训练中，去掉 MLM 任务进行微调，以使得生成的 PPL 降到更低，能取得更好的生成效果。

此前，达摩院机器智能实验室自研的 NLU 语言模型 StructBERT 与 NLG 语言模型 PALM 均在各自领域取得了 SOTA 的效果。简单来说，StructBERT 模型通过加强句子级别（Sentence Structural Objective）和词级别（Word Structural Objective）两个层次的训练目标中对语言结构信息的建模，加强模型对于语法的学习能力。PALM 模型则结合了 Autoencoding 和 Autoregression 两种预训练方式，引入 Masked LM 目标来提升 encoder 的表征能力，同时通过预测文本后半部分来提升 decoder 的生成能力。此次大规模语言模型的训练，达摩院团队汲取二者所长，提出了一个简单的框架，用来进行 NLU&NLG 联合训练。相比于 GPT 系列模型，该大规模生成模型以 StructBERT 作为 encoder，有着很强的输入文本双向理解能力，从而可以生成和输入更相关的内容。

整个训练流程分为两个阶段。首先在第一阶段，达摩院团队训练了一个 24 layers／8192 hidden size 的标准 StructBERT 模型作为 encoder。这个过程共计训练了 300B tokens 的训练数据，规模与 GPT-3 的训练规模相当。

在第二阶段，达摩院团队将这个 encoder 用于生成模型的初始化，并外挂了一个 6 layers / 8192 hidden size 的 decoder，在训练生成模型的过程中，在 encoder 端和 decoder 端均随机确定长度 [32, 512] 进行数据采样，确保适应下游广泛的生成任务。这一阶段共计训练了 100B tokens 的训练数据，前 90% 的训练中，团队保留了 Masked LM 任务以保持模型的 NLU 能力，后 10% 的训练中，去掉 MLM 任务进行微调，以使得生成的 PPL 降到更低，能取得更好的生成效果。

PLUG 生成示例展示

PLUG 生成模型有着很强的长文本生成和建模能力，相比于 GPT 系列模型的单向建模，PLUG 对输入的理解是双向建模的，因此能够在给定小段输入的条件下，生成和输入内容相关且信息量丰富的长文本。

在小说散文续写、诗歌生成、自由创作等多场景下的生成结果显示出了 PLUG 模型的强大性能。此前，阿里巴巴深度语言模型体系已经覆盖了多模态语言模型 StructVBERT、多语言模型 VECO、生成式语言模型 PALM 等 6 大自研模型，并登顶了多个国际赛事和榜单。达摩院此次发布的 PLUG 模型，为阿里巴巴深度语言模型体系又增添了一员大将。

PLUG 生成模型有着很强的长文本生成和建模能力，相比于 GPT 系列模型的单向建模，PLUG 对输入的理解是双向建模的，因此能够在给定小段输入的条件下，生成和输入内容相关且信息量丰富的长文本。直接用预训练好的模型在小说续写、诗歌生成、菜谱生成等场景下测试，示例如下（以小说续写和专业文稿撰写为例）：

小说续写

输入：话说宝玉和凤姐回家，见过众人，宝玉便回明贾母要约秦钟上家塾之事，自己也有个伴读的朋友，正好发愤；又着实称赞秦钟人品行事，最是可人怜爱的。凤姐又在一旁帮着说：“改日秦钟还来拜见老祖宗呢。”说的贾母喜欢起来。凤姐又趁势请贾母一同过去看戏。贾母虽年高，

输出：但身上还有几分力气，便命凤姐陪她看戏。贾母一个劲儿的让出一条道来，凤姐便陪他到一边。不想戏刚刚上场，只见从人堆里，挤出两个老人来，都是身着绸衣，头上扎着两根簪儿，后面跟着两个老人。贾母一眼便认出来，这便是邢岫烟。这邢岫烟原是贾环的外孙女婿，邢夫人的外孙宝玉看了，也不觉的诧异。一时，那邢岫烟和贾环一干人等，就围着贾母、凤姐、秦钟等。一时，邢岫烟又叫：邢夫人来。贾环等不胜其扰，一时都来到邢夫人的房门口。只见邢夫人正站在窗口，向窗内张望。邢岫烟便向邢夫人笑道：邢二婶子，你看这窗户这么大，难道窗子不是贾环等听见，都来看戏。只见邢夫人也在一旁，忙向邢夫人打听起邢岫烟的来历来。邢夫人听见贾环在此，忙向邢岫烟说道：邢夫人，你也在这里看戏。邢岫烟听说，忙向邢夫人道：邢二婶子，你来的正好，正好可以问问你。邢二婶子，你可认得他么？邢夫人道：认得。邢夫人笑道：你认得他吗？

专业文稿撰写

输入：目标检测是计算机视觉的一个重要研究方向，其目的是精确识别给定图像中特定目标物体的类别和位置。近年来，

输出：视觉技术已经成为计算机视觉领域中研究热点，视觉智能的发展将对传感方式、感知技术、图像处理技术、自然语言处理等方面产生深刻影响。视觉传感器在工业生产、军事领域中的应用已越来越广泛。但是我们在实际生产中经常遇到一些难题，例如传感器的检测难题，传感器的校准难题，传感器的应用领域不明确，传感器的性能评估不一致等等，这些都是传感器在工业生产中实际应用中遇到的难题。

试用地址：https://nlp.aliyun.com/portal#/BigText_chinese

内容中包含的图片若涉及版权问题，请及时与我们联系删除

阿里|270亿参数、刷榜CLUE，阿里达摩院发布最大中文预训练语言模型PLUG