基于GPT的In-Context Learning工作机制解析

In-Context Learning（ICL）在大型预训练语言模型上取得了巨大的成功，但其工作机制仍然是一个悬而未决的问题。本文中，来自北大、清华、微软的研究者将 ICL 理解为一种隐式微调，并提供了经验性证据来证明 ICL 和显式微调在多个层面上表现相似。

本文旨在解释基于 GPT 的 ICL 工作机制。从理论上讲，该研究找出了 ICL 的对偶形式，并建议将 ICL 理解为元优化过程。此外，该研究在 ICL 和特定微调设置之间建立了联系，发现将 ICL 视为一种隐式微调是合理的。为了支持对 ICL 执行隐式微调的理解，该研究综合比较了 ICL 和基于实际任务的微调的行为。结果证明，ICL 类似于显式微调。此外，受元优化的启发，该研究设计了一种基于动量的注意力，以实现一致的性能改进。

论文地址：https://arxiv.org/pdf/2212.10559v2.pdf
项目地址：https://github.com/microsoft/LMOps

如图 1 所示，ICL 和显式微调共享基于梯度下降的对偶优化形式。唯一的区别是 ICL 通过前向计算产生元梯度，而微调通过反向传播计算梯度。因此，将 ICL 理解为某种隐式微调是合理的。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

基于GPT的In-Context Learning工作机制解析

评论列表

合并

被GPT带飞的In-Context Learning为什么起作用？模型在秘密执行梯度下降

评论