Google DeepMind｜模式学习和重绑定作为上下文学习和涌现的机制

Schema-learning and rebinding as mechanisms of in-context learning and emergence

Sivaramakrishnan Swaminathan, Antoine Dedieu, Rajkumar Vasudeva Raju, Murray Shanahan, Miguel Lazaro-Gredilla, Dileep George
[Google DeepMind]

模式学习和重绑定作为上下文学习和涌现的机制

动机：在最近的基于Transformer的大型语言模型(LLM)中，上下文学习(ICL)是最强大和最出人意料的能力之一。然而，其背后的机制尚不清楚。本文旨在通过使用克隆结构化因果图(CSCG)的替代序列预测学习方法，展示可以获得类似的ICL能力。
方法：使用一种名为克隆结构化因果图(CSCG)的序列学习模型。CSCG的关键属性是，与基于transformer的LLM不同，其是可解释的，这大大简化了解释ICL如何工作的任务。具体来说，展示它使用了一种组合：(a) 学习模板(模式)回路进行模式补全，(b) 以上下文敏感的方式检索相关模板，以及 (c) 将新的Token重新绑定到模板中的适当槽位。
优势：CSCG可以通过学习模板回路、上下文敏感的模板检索以及新Token的重新绑定，实现与大型语言模型(LLM)相似的上下文学习(ICL)能力。此外，CSCG的另一个关键优势是它们是可解释的，大大简化了解释ICL如何工作的任务。

通过使用克隆结构化因果图(CSCG)的替代序列预测学习方法，展示了可以获得与大型语言模型(LLM)中上下文学习(ICL)相似的能力，并提出一种新的解释ICL工作机制的方法。