谷歌&HuggingFace| 零样本能力最强的语言模型结构

从 GPT3 到 Prompt，越来越多人发现大模型在零样本学习（zero-shot）的设定下有非常好的表现。这都让大家对 AGI 的到来越来越期待。

但有一件事让人非常疑惑：19 年 T5 通过“调参”发现，设计预训练模型时，Encoder-Decoder 的模型结构 + MLM 任务，在下游任务 finetune 效果是最好的。可是在 2202 年的当下，主流的大模型用的都是仅 decoder 的模型结构设计，比如 OpenAI 的 GPT 系列、Google 的 PaLM [1]、Deepmind 的 Chinchilla [2] 等等。这是为什么？难道这些大模型设计都有问题？

今天带来一篇 Hugging Face 和 Google 的文章。这篇文章与 T5 在实验上的思路相似，通过大量对比设计，得到一个重磅结论：要是为了模型的 zero-shot 泛化能力，decoder 结构 + 语言模型任务最好；要是再 multitask finetuning，encoder-decoder 结构 + MLM 任务最好。

除了找到最好的训练方式，作者通过大量的实验，还找到了最好的同时还能最节省成本的训练方式。训练计算量只需要九分之一！

论文题目:
What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?

论文链接:
https://arxiv.org/abs/2204.05832

内容中包含的图片若涉及版权问题，请及时与我们联系删除

谷歌&HuggingFace| 零样本能力最强的语言模型结构

评论列表

评论