Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization

向作者提问

NEW

简介

我们研究了transformers是否能够学习隐式推理参数化知识的能力，这是即使是最有能力的语言模型也难以掌握的技能。我们专注于两种代表性的推理类型，即组合和比较。我们一致发现，transformers可以学习隐式推理，但只有通过理解才能实现，即进行远远超出过拟合的长时间训练。在推理类型方面，泛化的水平也有所不同：当面对超出分布范围的示例时，transformers在组合方面无法系统地推广，但在比较方面却能成功。我们在整个训练过程中深入研究了模型的内部，进行了分析实验，揭示了：1）理解背后的机制，例如形成概括电路及其与概括和记忆电路的相对效率的关系，以及2）系统性与概括电路的配置之间的联系。我们的发现指导了数据和训练设置，以更好地引导隐式推理，并提出了改进transformer架构的可能性，例如鼓励跨层知识共享。此外，我们展示了对于一个具有大量搜索空间的具有挑战性的推理任务，基于非参数化记忆的GPT-4-Turbo和Gemini-1.5-Pro无论提示风格或检索增强如何都表现糟糕，而完全理解的transformer可以实现接近完美的准确性，展示了参数化记忆在复杂推理中的强大能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在探究transformers是否能够学习隐含的参数知识推理技能。研究的重点在于两种代表性的推理类型：组合和比较。这是否是一个新问题？
关键思路

论文通过深入的训练发现，transformers可以学习隐含的推理能力，但仅限于通过长时间训练来理解，即“理解”。推理类型的泛化水平也因推理类型而异。当面临超出分布的例子时，transformers在组合方面无法系统地泛化，但在比较方面则成功。通过分析实验，揭示了“理解”背后的机制，以及系统性和推理电路配置之间的联系。论文的发现指导数据和训练设置，以更好地诱导隐含推理，并提出了transformer架构的潜在改进。
其它亮点

论文通过实验揭示了transformers如何学习隐含推理能力，并探究了其机制和泛化能力。实验设计合理，使用了多个数据集，并提供了开源代码。论文还发现，对于一个具有大量搜索空间的挑战性推理任务，基于非参数存储的GPT-4-Turbo和Gemini-1.5-Pro无论采用何种提示样式或检索增强，都表现不佳，而完全理解的transformer可以实现接近完美的准确性，展示了参数存储对于复杂推理的强大性能。
相关研究

最近在这个领域中，还有一些相关的研究，如《Learning to Reason: End-to-End Module Networks for Visual Question Answering》、《Neural Module Networks》和《A Simple Method for Commonsense Reasoning》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问