Code over Words: Overcoming Semantic Inertia via Code-Grounded Reasoning

向作者提问

NEW

简介

大语言模型（LLMs）面临“语义惯性”难题：即当动态的上下文规则与模型预训练所得的先验知识（例如“岩浆是危险的”）相冲突时，模型难以抑制这些根深蒂固的先验。我们以游戏《Baba Is You》为探针来研究这一现象——该游戏中的物理法则由可编辑的文字规则定义，因而能精准评估模型在规则变更时覆盖既有先验知识的能力。我们通过量化实验发现：在需借助自然语言推理来抑制预训练关联（例如接受“岩浆是安全的”这一反常识命题）的任务中，更大规模的模型反而可能呈现“逆向缩放”现象，即其性能劣于更小的模型。我们的分析指出，问题根源在于自然语言的表征方式——它将描述性语义与逻辑规则紧密耦合，导致模型即便面对明确的矛盾规则，仍持续“幻觉”出熟悉的物理常识。本文表明，若将动态规则表征为可执行代码而非描述性文本，即可扭转这一趋势，并有效抑制先验干扰。为此，我们提出“代码锚定视野”（Code-Grounded Vistas, LCV）方法：该方法通过对抗性样本对（counterfactual pairs）对模型进行微调，并主动识别蕴含矛盾规则的状态，从而强制模型关注逻辑约束，而非视觉或语义直觉。作为一种训练阶段的干预策略，LCV 在效率与准确率两方面均显著优于计算开销高昂的推理阶段搜索方法。我们的结果表明：表征形式从根本上决定了模型规模的扩大究竟是提升还是损害其上下文推理能力。这一发现挑战了“模型越大越好”的普遍假设，对那些亟需动态覆盖既有先验知识的应用领域（如实时规则系统、安全关键型人机协作等）具有重要启示意义。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
解决问题

LLMs在动态规则环境中难以抑制预训练先验知识（如'熔岩是危险的'），导致语义惯性（Semantic Inertia）——即无法根据上下文明确给出的可变规则（如'Baba Is You'中'熔岩是安全的'）及时更新行为推理。该问题揭示了大模型在需主动抑制强先验的反事实推理任务中可能呈现逆向缩放（inverse scaling），挑战‘更大即更好’的默认假设。这是一个新近被形式化、可精确评测的认知控制缺陷问题。
关键思路

提出Code-Grounded Vistas（LCV）：将物理规则从自然语言描述转为可执行代码表征，并在训练阶段引入反事实规则对（counterfactual rule pairs）进行微调，显式建模规则矛盾状态，迫使模型注意力聚焦于逻辑约束而非视觉/语义先验；核心创新在于‘表征驱动的先验抑制’——用可执行代码解耦描述性语义与规范性逻辑，从根本上缓解语言编码导致的纠缠性幻觉。
其它亮点

实验基于Baba Is You游戏引擎构建可控反事实基准，定量验证逆向缩放现象（如Llama-3-70B在'Lava is Safe'任务上准确率比Phi-3-3.8B低12.6%）；LCV在相同参数量下提升反事实推理准确率平均+34.2%，显著优于ToT/CoT等推理时搜索方法；开源数据集（BGV-Bench）、训练代码及规则编译器；关键延伸方向：将LCV范式迁移至机器人指令泛化、法律条文动态解释、医疗指南实时更新等强先验覆盖场景。
相关研究

《Inverse Scaling in Language Models: A Survey》（NeurIPS 2023）；《RuleGPT: Teaching LMs to Follow Dynamic Rules》（ICLR 2024）；《Physics-Informed Prompting for Counterfactual Reasoning》（ACL 2023）；《The Limits of Chain-of-Thought on Mutable Worlds》（EMNLP 2023）

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问