- 简介我们研究了transformers是否能够学习隐式推理参数化知识的能力,这是即使是最有能力的语言模型也难以掌握的技能。我们专注于两种代表性的推理类型,即组合和比较。我们一致发现,transformers可以学习隐式推理,但只有通过理解才能实现,即进行远远超出过拟合的长时间训练。在推理类型方面,泛化的水平也有所不同:当面对超出分布范围的示例时,transformers在组合方面无法系统地推广,但在比较方面却能成功。我们在整个训练过程中深入研究了模型的内部,进行了分析实验,揭示了:1)理解背后的机制,例如形成概括电路及其与概括和记忆电路的相对效率的关系,以及2)系统性与概括电路的配置之间的联系。我们的发现指导了数据和训练设置,以更好地引导隐式推理,并提出了改进transformer架构的可能性,例如鼓励跨层知识共享。此外,我们展示了对于一个具有大量搜索空间的具有挑战性的推理任务,基于非参数化记忆的GPT-4-Turbo和Gemini-1.5-Pro无论提示风格或检索增强如何都表现糟糕,而完全理解的transformer可以实现接近完美的准确性,展示了参数化记忆在复杂推理中的强大能力。
- 图表
- 解决问题论文旨在探究transformers是否能够学习隐含的参数知识推理技能。研究的重点在于两种代表性的推理类型:组合和比较。这是否是一个新问题?
- 关键思路论文通过深入的训练发现,transformers可以学习隐含的推理能力,但仅限于通过长时间训练来理解,即“理解”。推理类型的泛化水平也因推理类型而异。当面临超出分布的例子时,transformers在组合方面无法系统地泛化,但在比较方面则成功。通过分析实验,揭示了“理解”背后的机制,以及系统性和推理电路配置之间的联系。论文的发现指导数据和训练设置,以更好地诱导隐含推理,并提出了transformer架构的潜在改进。
- 其它亮点论文通过实验揭示了transformers如何学习隐含推理能力,并探究了其机制和泛化能力。实验设计合理,使用了多个数据集,并提供了开源代码。论文还发现,对于一个具有大量搜索空间的挑战性推理任务,基于非参数存储的GPT-4-Turbo和Gemini-1.5-Pro无论采用何种提示样式或检索增强,都表现不佳,而完全理解的transformer可以实现接近完美的准确性,展示了参数存储对于复杂推理的强大性能。
- 最近在这个领域中,还有一些相关的研究,如《Learning to Reason: End-to-End Module Networks for Visual Question Answering》、《Neural Module Networks》和《A Simple Method for Commonsense Reasoning》。


提问交流