Google发布5400亿参数量的PaLM模型后,NLP预训练似乎走上了海纳百川的路线,即以大量的NLP任务进行训练,以达到全知全能,进而实现解决few-shot任务的能力。

性能是提高了,但对平民玩家来说太不友好了;而且要是用不到多任务的功能,海量参数实际上都是闲置的,性价比超低

最近,微软的黄学东带队,和第一作者贺鹏程等人共同发表了一项重大的研究成果——全新预训练模型Z-Code++。之后,团队很快也会推出以此为基础的人工智能认知服务抽象式文本摘要API。

Z-Code++仅针对抽象式文本摘要任务进行优化,在5种语言的13个文本摘要任务中,有9个达到新sota性能,成功超越一众大模型,参数量仅为PaLM的600分之一,GPT-3的200分之一,性价比爆棚

论文地址:https://arxiv.org/abs/2208.09770

Zeor-shotFew-shot的任务设置中,Z-code模型的性能仍然领先其他竞争模型。

Z-Code++采用两阶段预训练提升模型在低资源摘要任务上的性能:首先使用大规模文本语料库进行预训练,提升模型的语言理解能力;然后再摘要语料库上针对文本生成任务继续预训练。

在模型设计上,Z-code++将编码器中的自注意力层换成了disentangled注意力层,每个词的表征包含两个向量用来编码内容和位置。模型还使用fusion-in-encoder方法以层次化的方式提升处理长序列的效率。

文章的第一作者贺鹏程在微软认知服务团队中进行自然语言处理研发工作,专注于顶级深度学习算法和系统的研究,包括大规模训练的语言模型、对抗性训练,问答和其他相关的NLP问题。
 
黄学东博士是IEEE/ACM Fellow,微软首位华人「全球技术院士」、微软云计算人工智能首席技术官。他先后获得湖南大学学士学位,清华大学硕士学位和英国爱丁堡大学博士学位。

内容中包含的图片若涉及版权问题,请及时与我们联系删除