Google发布5400亿参数量的PaLM模型后,NLP预训练似乎走上了海纳百川的路线,即以大量的NLP任务进行训练,以达到全知全能,进而实现解决few-shot任务的能力。
性能是提高了,但对平民玩家来说太不友好了;而且要是用不到多任务的功能,海量参数实际上都是闲置的,性价比超低。
最近,微软的黄学东带队,和第一作者贺鹏程等人共同发表了一项重大的研究成果——全新预训练模型Z-Code++。之后,团队很快也会推出以此为基础的人工智能认知服务抽象式文本摘要API。
Z-Code++仅针对抽象式文本摘要任务进行优化,在5种语言的13个文本摘要任务中,有9个达到新sota性能,成功超越一众大模型,参数量仅为PaLM的600分之一,GPT-3的200分之一,性价比爆棚!
论文地址:https://arxiv.org/abs/2208.09770
在Zeor-shot和Few-shot的任务设置中,Z-code模型的性能仍然领先其他竞争模型。
Z-Code++采用两阶段预训练提升模型在低资源摘要任务上的性能:首先使用大规模文本语料库进行预训练,提升模型的语言理解能力;然后再摘要语料库上针对文本生成任务继续预训练。
在模型设计上,Z-code++将编码器中的自注意力层换成了disentangled注意力层,每个词的表征包含两个向量用来编码内容和位置。模型还使用fusion-in-encoder方法以层次化的方式提升处理长序列的效率。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢