Schema-learning and rebinding as mechanisms of in-context learning and emergence

Sivaramakrishnan Swaminathan, Antoine Dedieu, Rajkumar Vasudeva Raju, Murray Shanahan, Miguel Lazaro-Gredilla, Dileep George
[Google DeepMind]

模式学习和重绑定作为上下文学习和涌现的机制

  • 动机:在最近的基于Transformer的大型语言模型(LLM)中,上下文学习(ICL)是最强大和最出人意料的能力之一。然而,其背后的机制尚不清楚。本文旨在通过使用克隆结构化因果图(CSCG)的替代序列预测学习方法,展示可以获得类似的ICL能力。
  • 方法:使用一种名为克隆结构化因果图(CSCG)的序列学习模型。CSCG的关键属性是,与基于transformer的LLM不同,其是可解释的,这大大简化了解释ICL如何工作的任务。具体来说,展示它使用了一种组合:(a) 学习模板(模式)回路进行模式补全,(b) 以上下文敏感的方式检索相关模板,以及 (c) 将新的Token重新绑定到模板中的适当槽位。
  • 优势:CSCG可以通过学习模板回路、上下文敏感的模板检索以及新Token的重新绑定,实现与大型语言模型(LLM)相似的上下文学习(ICL)能力。此外,CSCG的另一个关键优势是它们是可解释的,大大简化了解释ICL如何工作的任务。


通过使用克隆结构化因果图(CSCG)的替代序列预测学习方法,展示了可以获得与大型语言模型(LLM)中上下文学习(ICL)相似的能力,并提出一种新的解释ICL工作机制的方法。

https://arxiv.org/abs/2307.01201 


图片
图片
图片