- 简介大语言模型(LLMs)在推理基准测试中表现良好,但在输入发生轻微变化时常常失败,这引发了人们对其成功在多大程度上依赖记忆能力的担忧。这个问题在思维链(CoT)推理中尤为突出,因为在这种推理过程中,虚假的记忆模式可能引发中间错误,进而级联为最终的错误答案。我们提出了STIM,这是一种新的“来源感知的词元级记忆识别”框架,该框架根据词元与预训练语料库中统计共现内容的关系,将推理链中的每个词元归因到多个记忆来源之一:局部、中程或长程记忆。我们在多种任务和分布设置下的词元级分析表明,模型在处理复杂或长尾情况时更依赖记忆能力,并且局部记忆往往是导致错误的主要因素,造成多达67%的错误词元。我们还表明,STIM得出的记忆分数可以有效预测错误推理步骤中的错误词元。STIM为诊断和改进模型推理能力提供了一个强有力的工具,并可推广到其他结构化的分步生成任务。
- 图表
- 解决问题论文旨在解决大型语言模型(LLMs)在推理任务中对输入微小变化的敏感性问题,尤其是链式推理(CoT)中由于记忆错误模式导致的中间错误级联问题。论文试图验证模型在推理过程中对记忆的依赖程度,以及这种依赖是否会导致错误。
- 关键思路论文提出了STIM框架,通过源感知的token级记忆识别,将推理链中的每个token归因到不同的记忆来源(本地、中程或长程),基于它们在预训练语料库中的统计共现情况。这种方法首次实现了对推理链中记忆来源的细粒度分析。
- 其它亮点1. STIM框架能够有效预测错误推理步骤中的错误token。 2. 实验表明,模型在复杂或长尾任务中更依赖记忆,且本地记忆是错误的主要来源,导致高达67%的错误token。 3. 论文的token级分析方法适用于其他结构化的逐步生成任务。 4. 研究为改进模型推理能力提供了新的诊断工具。
- 1. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Wei et al., 2022) 2. Measuring Memorization in Language Models (Carlini et al., 2022) 3. Language Models (Mostly) Know What They Know (Jiang et al., 2022) 4. In-context Learning and Induction Heads (Elhage et al., 2022) 5. The Curious Case of Neural Text Degeneration (Holtzman et al., 2020)
沙发等你来抢
去评论
评论
沙发等你来抢