Is In-Context Learning a Type of Gradient-Based Learning? Evidence from the Inverse Frequency Effect in Structural Priming

2024年06月26日
  • 简介
    大型语言模型(LLMs)展示了上下文学习(ICL)的新兴能力。一条研究线路将ICL解释为功能性地执行梯度下降。在本文中,我们介绍了一种诊断ICL是否与基于梯度的学习功能等效的新方法。我们的方法基于反频率效应(IFE)——这是一种现象,在这种现象中,预期一个错误驱动的学习者在训练不频繁的例子时会显示更大的更新,而在训练频繁的例子时则不会。IFE以前在心理语言学中进行了研究,因为人类在结构启动的背景下显示出这种效应(人们倾向于产生他们最近遇到的句子结构);IFE被用作证据,证明人类结构启动必须涉及错误驱动的学习机制。在我们的实验中,我们在ICL中模拟结构启动,并发现LLMs显示IFE,效应在更大的模型中更强。我们得出结论,ICL确实是一种基于梯度的学习类型,支持假设在ICL期间前向传递中隐含地计算了梯度分量。我们的结果表明,人类和LLMs都利用基于梯度的错误驱动处理机制。
  • 图表
  • 解决问题
    论文旨在诊断in-context learning(ICL)是否等同于基于梯度的学习。
  • 关键思路
    通过逆频率效应(IFE)的模拟实验,论文发现LLMs表现出IFE,这表明ICL是一种基于梯度的学习。
  • 其它亮点
    论文使用了逆频率效应(IFE)的模拟实验来检验ICL是否等同于基于梯度的学习。实验结果表明LLMs表现出IFE,且这种效应在更大的模型中更加明显。这表明ICL确实是一种基于梯度的学习。
  • 相关研究
    最近的相关研究包括:1.《The Emergence of Intrinsic Control in Artificial Intelligence》;2.《On the Emergence of Language and Communication in Embodied Agents》;3.《The Role of Context in Learning and Inference in Artificial Intelligence》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论