PaperWeekly|苏剑林 单位|追一科技 研究方向|NLP、神经网络
在之前的文章中作者介绍了 Google 的多国语言版 T5 模型(mT5),并给出了用 mT5 进行中文文本生成任务的例子。诚然,mT5 做中文生成任务也是一个可用的方案,但缺乏完全由中文语料训练出来模型总感觉有点别扭,于是决心要搞一个出来。
经过反复斟酌测试,作者决定以 mT5 为基础架构和初始权重,先结合中文的特点完善 Tokenizer,然后模仿 PEGASUS来构建预训练任务,从而训练一版新的 T5 模型,这就是本文所开源的 T5 PEGASUS。
本文要分享的中文生成式预训练模型 T5 PEGASUS,以 mT5 为基础,在中文语料上使用 PEGASUS 式的伪摘要预训练,最终有着不错的文本生成表现,尤其是出色的小样本学习能力,详细的介绍可以戳原文,并且欢迎有文本生成需求的读者使用。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢