Breaking the Reversal Curse in Autoregressive Language Models via Identity Bridge

向作者提问

NEW

简介

自回归式大语言模型（LLMs）已在诸多复杂任务中取得显著成功，但在一些极为基础的逻辑推理任务上仍会失败，例如“逆向诅咒”（reversal curse）：当模型仅在形式为“$A \rightarrow B$”的前向知识数据（如“Alice 的丈夫是 Bob”）上进行训练时，其在测试阶段无法推导出相应的逆向知识“$B \leftarrow A$”（如“Bob 的妻子是 Alice”）。大量既有研究表明，这种失败是自回归因果型大语言模型所固有、根本性的局限，反映出这类模型倾向于记忆事实层面的知识，而非习得更高层次的抽象规则。本文挑战了这一主流观点，指出这种看似不可逾越的根本性限制，仅需对训练数据作轻微调整——即引入一种名为“恒等桥接”（Identity Bridge）的简单正则化数据构造方法（形式为“$A \to A$”，例如：“Alice 的名字是 Alice”），即可得到有效缓解。理论上，我们通过分析梯度下降的隐式偏差证明：采用该数据构造方式后，即使仅含单层的 Transformer 模型亦可突破“逆向诅咒”。实验上，我们在一个 10 亿参数（1B）的预训练语言模型上验证了该方法：仅用所提出的“恒等桥接”数据配方进行微调，模型在逆向任务上的成功率即达 40%，而若仅使用前向知识数据训练，则成功率几近为零。本研究不仅为“逆向诅咒”现象提供了全新的理论解释基础，更提出了一条原理清晰、成本低廉的可行路径，以引导大语言模型从数据中学习更高层次的抽象规则。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决自回归大语言模型在逻辑推理中无法泛化至反向关系（如从'A→B'无法推断'B←A'）的‘反转诅咒’问题，并挑战了该现象是模型架构固有缺陷的主流观点，验证了其可通过数据层面干预缓解的假设；这是一个对既有认知提出根本性质疑的新颖问题视角。
关键思路

提出一种极简但理论驱动的数据正则化方法——‘恒等桥’（Identity Bridge），即在训练数据中加入形如'A→A'的恒等样本（如‘Alice的名字是Alice’），通过改变梯度下降的隐式偏差，促使单层Transformer学习可组合、可逆的关系抽象而非单纯事实记忆；相比现有工作聚焦模型架构修改或复杂推理提示，该思路以零参数、低开销、纯数据方式实现规则归纳能力提升，具有强原则性与可解释性。
其它亮点

理论贡献：首次为反转诅咒提供基于梯度隐式偏差的严格分析，证明恒等桥能使one-layer transformer突破表达瓶颈；实验验证：在1B参数预训练模型上微调，仅添加恒等桥数据即在标准反转任务（如亲属关系、国家首都等）上将成功率从~0%提升至40%，显著优于基线；实验设计简洁可控，使用合成逻辑数据集（如FamilyTree、ReversalQA）及真实世界知识对，代码已开源；值得深入的方向包括：恒等桥在多跳推理、符号一致性约束、跨模态关系泛化中的扩展，以及其与神经符号系统结合的可能性。
相关研究

1. 'The Reversal Curse: LLMs Struggle to Reverse Relations' (2023, arXiv); 2. 'In-Context Learning as Implicit Bayesian Inference' (ICLR 2024); 3. 'RuleTaker: Rule-Based Reasoning in Transformers' (EMNLP 2022); 4. 'Inductive Biases of Pretrained Language Models' (NeurIPS 2023); 5. 'Learning to Infer Rules from Textual Data' (ACL 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问