- 简介我们展示了当transformers在语言模型或线性回归任务上训练时,它们会出现离散的发展阶段,这些阶段中出现了上下文学习。我们引入了两种方法来检测分隔这些阶段的里程碑,通过探测参数空间和函数空间中种群损失的几何形态。我们使用各种行为和结构度量来研究这些新方法揭示的阶段,以建立它们的有效性。
-
- 图表
- 解决问题本文旨在研究transformers在离散的发展阶段中出现的上下文学习,并探索检测这些阶段的方法。
- 关键思路通过探索参数空间和功能空间中的种群损失几何来检测阶段,建立阶段的行为和结构度量来验证其有效性。
- 其它亮点实验使用语言建模和线性回归任务进行训练,介绍了两种检测阶段的方法。值得关注的是,本文的方法能够有效地检测到transformers在不同的发展阶段中的上下文学习。
- 近期相关研究包括《Attention is All You Need》、《BERT》、《GPT》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流