CausalLM is not optimal for in-context learning

Nan Ding, Tomer Levinboim, Jialin Wu, Sebastian Goodman, Radu Soricut

[Google Research]

CausalLM不是上下文学习的最佳选择

要点:

  • 最新实验证据表明,transformer模型进行上下文学习时,prefix language model(prefixLM)比causal language model(causalLM)表现更好。prefixLM允许所有上下文样本之间相互关注,而causalLM使用仅允许关注过去样本的自回归注意力机制。
  • 通过对线性回归问题的分析,从理论上解释了prefixLM和causalLM的上下文学习行为差异,证明两种模型都以线性收敛率逼近各自的稳定点,但prefixLM的稳定点对应线性回归的最小二乘解,而causalLM的稳定点等效于一个在线梯度下降算法,即使样本数量增长也可能不会收敛到最优解。
  • 通过在合成任务和真实任务上的实验,验证了上述理论见解,prefixLM始终优于causalLM,尤其是使用了大语言模型PaLM微调在少样本任务上,prefixLM的准确率也始终高于causalLM。
  • 虽然causalLM的训练误差也以线性速率下降,但其测试误差明显比prefixLM大,说明其稳定点并非最优,另外,增加causalLM的上下文样本数并不能保证收敛到线性回归的最优解。
  • 本文从理论和实验双方面说明,自回归的causalLM结构限制了上下文样本之间的互动,从而导致其上下文学习性能次优,PrefixLM通过允许所有样本互相关注,能够达到线性回归的最优解,是更佳的上下文学习模型结构。

动机:在现有的transformer模型中,使用prefixLM比使用causalLM在上下文学习(in-context learning)任务上表现更好,但目前尚无理论解释。本文旨在通过理论分析和实验验证,探究prefixLM和causalLM在线性回归任务中的收敛性和优劣。
方法:采用理论分析和实验验证的方法,分别对prefixLM和causalLM在线性回归任务中的收敛性进行研究,并对它们的收敛点进行比较。
优势:通过理论分析和实验验证,揭示了prefixLM和causalLM在上下文学习任务中的不同行为和收敛性质。实验结果证明了prefixLM在各种设置下都优于causalLM。

通过理论分析和实验验证,揭示了prefixLM和causalLM在上下文学习任务中的不同行为和收敛性质。

https://arxiv.org/abs/2308.06912 


图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除