On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models

简介

随着大型语言模型（LLMs）在诸如医疗保健等关键领域的实际应用越来越多，确保这些模型生成的思维链（CoT）推理忠实地捕捉其基础行为变得越来越重要。虽然已知LLMs生成的CoT推理对人类具有吸引力，但先前的研究表明，这些解释并不准确反映出基础LLMs的实际行为。在本文中，我们探索了三种常用的广泛方法的潜力，这些方法通常用于引导LLMs的行为，以增强由LLMs生成的CoT推理的忠实性：上下文学习、微调和激活编辑。具体而言，我们介绍了旨在改善CoT推理忠实性的上下文学习、微调和激活编辑的新策略。然后，我们使用多个基准数据集进行了广泛的实证分析，以探索这些策略的潜力。我们的分析表明，这些策略在改善CoT推理的忠实性方面提供了有限的成功，在受控情况下仅略微提高了性能。激活编辑表现出最小的成功，而微调和上下文学习实现了微小的改进，但未能在不同的推理和真实问答基准测试中推广。总之，我们的工作强调了从LLMs中引出忠实的CoT推理的固有困难，表明当前的方法可能不足以解决这个复杂的挑战。
图表
解决问题

提高大型语言模型生成的Chain-of-Thought推理的准确性和可靠性
关键思路

通过三种方法（in-context learning、fine-tuning、activation editing）来改进大型语言模型的Chain-of-Thought推理，但这些方法在实验中的表现有限，表明提高准确性和可靠性是一个复杂的挑战。
其它亮点

论文介绍了三种改进大型语言模型Chain-of-Thought推理的方法，并在多个基准数据集上进行了实验，但结果表明这些方法在实际中的表现有限。
相关研究

最近的相关研究包括使用不同的技术来提高大型语言模型的解释性和可解释性，如模型可视化和解释性对抗训练。

On the Hardness of Faithful Chain-of-Thought Reasoning in Large Language Models

评论