清北微软深挖GPT，把上下文学习整明白了！和微调基本一致，只是参数没变而已

大型预训练语言模型其中一个重要的特点就是上下文学习（In-Context Learning，ICL）能力，即通过一些示范性的输入-标签对，就可以在不更新参数的情况下对新输入的标签进行预测。

性能虽然上去了，但大模型的ICL能力到底从何而来仍然是一个开放的问题。

为了更好地理解ICL的工作原理，清华大学、北京大学和微软的研究人员共同发表了一篇论文，将语言模型解释为元优化器（meta-optimizer），并将ICL理解为一种隐性的（implicit）微调。

从理论上讲，这篇文章弄清楚了Transformer注意力中存在一个基于梯度下降优化的对偶形式（dual form），并在此基础上，对ICL的理解如下。GPT首先根据示范实例产生元梯度，然后将这些元梯度应用于原始的GPT，建立ICL模型。

在实验中，研究人员综合比较了ICL和基于真实任务的显式微调的行为，以提供支持该理解的经验证据。

结果证明，ICL在预测层面、表征层面和注意行为层面的表现与显式微调类似。

此外，受到元优化理解的启发，通过与基于动量的梯度下降算法的类比，文中还设计了一个基于动量的注意力，比普通的注意力有更好的表现，从另一个方面再次支持了该理解的正确性，也展现了利用该理解对模型做进一步设计的潜力。

内容中包含的图片若涉及版权问题，请及时与我们联系删除