A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning

2024年06月18日
  • 简介
    Chain-of-Thought (CoT) 在增强大型语言模型 (LLMs) 推理性能方面具有重要地位。虽然一些研究侧重于通过检索增强等方法提高 CoT 的准确性,但为什么 CoT 能取得如此成功的严格解释仍不清楚。本文通过以下两个问题分析了两种不同设置下的 CoT 方法:(1) 对于零样本 CoT,为什么用“让我们逐步思考”的提示显著影响模型的输出?(2) 对于少样本 CoT,为什么在向模型提问之前提供示例可以大大提高其推理能力?为了回答这些问题,我们从 Hopfield 视角进行自上而下的可解释分析,并提出了一种“读取和控制”方法来控制 CoT 的准确性。通过对三种不同任务的七个数据集进行大量实验,我们证明了我们的框架可以解密 CoT 的内部工作原理,提供推理错误定位,并控制正确推理路径的产生。
  • 图表
  • 解决问题
    分析Chain-of-Thought方法在零样本和少样本情况下的有效性,并解释其成功背后的原因。
  • 关键思路
    从Hopfieldian视角进行自上而下的可解释分析,并提出了一种读取和控制方法来控制CoT的准确性。
  • 其它亮点
    使用七个数据集进行了广泛的实验,展示了该框架可以解密CoT的内部工作原理,提供推理错误定位和控制来得出正确的推理路径。
  • 相关研究
    当前领域中的一些相关研究包括:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Zero-shot Text Classification: A Hierarchical Graph Attention Approach, Few-shot Learning with Graph Neural Networks等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论