Exact Conversion of In-Context Learning to Model Weights in Linearized-Attention Transformers

简介

In-Context Learning (ICL)是大型语言模型的一个强大的新兴特性，在近年来吸引了越来越多的关注。与常规的基于梯度的学习相比，ICL具有高度可解释性，不需要参数更新。本文展示，对于线性变压器网络，通过包括偏置项，可以使ICL变得明确和永久。我们在数学上证明了具有ICL演示提示的模型与具有额外偏置项的相同模型之间的等价性。我们的算法（ICLCA）允许以廉价的方式进行精确转换。现有方法并不精确，需要昂贵的参数更新。我们通过实验展示了我们方法的有效性，证明了ICL令牌能够被精确地纳入线性变压器中。我们进一步建议如何调整我们的方法，以实现ICL令牌的廉价近似转换，即使在不是线性化的常规变压器网络中也可以实现。我们在GPT-2上的实验表明，即使转换只是近似的，模型仍然从包含的偏置项中获得了有价值的上下文。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在通过引入偏置项，将In-Context Learning（ICL）纳入线性Transformer网络中，并提出一种低成本的算法ICLCA，以实现ICL的准确转换。
关键思路

通过在线性Transformer网络中添加偏置项，可以使ICL成为显式和永久性的，从而实现准确转换。ICLCA算法可以以低成本的方式实现准确转换。
其它亮点

论文通过实验证明了ICLCA算法的有效性，并提出了如何将该算法应用于非线性Transformer网络中的ICL转换。论文对GPT-2进行了实验，并展示了即使是近似转换，模型也能从包含偏置项中获得有价值的上下文。
相关研究

在该领域的相关研究包括：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》、《RoBERTa: A Robustly Optimized BERT Pretraining Approach》等。

Exact Conversion of In-Context Learning to Model Weights in Linearized-Attention Transformers

提问交流

提问交流