论文链接:https://arxiv.org/pdf/2205.05131.pdf
重新思考现在的预训练精调,我们有各种各样的预训练范式:decoder-only or encoder-decoder
, span corruption or language model
, 等等,不同的范式建模了不同的上下文关系,也正是因为如此,不同的预训练范式适配不同类型的下游任务。例如,基于双向上下文的预训练(span corruption,如T5)更加适用于 fact completion,基于单向上文(PrefixLM/LM,如GPT等)更加适用于 open ended. 也就是说,具体的下游任务类型需要选用特定的预训练策略。
近日Google 的 Yi Tay (and Mostafa) 团队提出了一个新的策略 Mixture-of-Denoisers, 统一了各大预训练范式。
该模型刷新了50个NLP 的SOTA,包括自然语言生成、自然语言理解、分类、问答等任务。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢