- 简介变形金刚已经在语言建模任务中取得了最先进的性能。然而,它们巨大成功的原因仍不清楚。为了更好地理解,本文在一个简单的下一个标记预测任务上训练了一个变形金刚模型,其中序列被生成为一个一阶自回归过程$s_{t+1}=Ws_t$。我们展示了一个经过训练的变形金刚是如何通过首先在上下文中学习$W$,然后应用预测映射来预测下一个标记的。我们称之为上下文自回归学习。更准确地说,我们首先展示了针对交换正交矩阵$W$,经过训练的单层线性变形金刚实现了梯度下降的一步,以最小化内部目标函数,当考虑增强标记时。当标记没有增强时,我们刻画了一个单层对角线性多头变形金刚的全局最小值。重要的是,我们展示了头之间的正交性,并展示了位置编码如何捕捉数据中的三角函数关系。在实验方面,我们考虑了非交换正交矩阵的一般情况,并推广了我们的理论发现。
- 图表
- 解决问题本论文旨在通过训练Transformer模型解决其成功的原因尚不清楚的问题,并提出了一种名为in-context autoregressive learning的新方法。
- 关键思路论文提出了一种针对commuting orthogonal matrices W的一层线性Transformer模型的训练方法,实现了对内部目标函数的梯度下降。同时,论文还证明了一层对角线性多头Transformer模型的全局最小值,并展示了头之间的正交性以及位置编码如何捕捉数据中的三角函数关系。
- 其它亮点论文在实验中使用了非commuting orthogonal matrices W,并推广了理论发现。此外,论文还展示了位置编码的作用,并探讨了在不同数据集上的实验结果。论文的代码已开源。
- 最近在这个领域中,还有一些相关的研究,如《Attention is All You Need》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。
沙发等你来抢
去评论
评论
沙发等你来抢