- 简介自我纠正是缓解大型语言模型(LLMs)中幻觉问题的一种有前途的方法。为了促进有效的自我纠正,最近的研究提出了错误检测作为其初始步骤。然而,当前文献表明,当使用简单的提示策略时,LLMs经常难以可靠地识别推理错误。为了解决这个挑战,我们引入了一种独特的提示策略,称为教育思维链(PedCoT),它专门设计用于指导推理错误的识别,特别是数学推理错误。PedCoT包括提示(PPP)设计的教育原则,两阶段交互过程(TIP)和基于教育理论的PedCoT提示,所有这些都受到Bloom认知模型(BCM)的启发。我们在两个公共数据集上评估了我们的方法,这些数据集具有不同难度级别的数学问题。实验表明,我们的零-shot提示策略明显优于强基线。所提出的方法可以实现可靠的数学错误识别,并为自动数学答案评分提供基础。结果强调了教育理论作为领域知识在指导有效解决LLMs中的挑战性任务的提示策略设计方面的重要性。
- 图表
- 解决问题如何通过新的提示策略,解决大型语言模型中的推理错误识别问题?
- 关键思路本文提出了一种新的提示策略——教学思维链(PedCoT),该策略基于Bloom认知模型的教育理论,并通过两阶段交互过程(TIP)和基于PedCoT的提示来引导推理错误的识别,特别是数学推理错误。实验结果表明,该策略可以有效地识别数学推理错误。
- 其它亮点本文的亮点包括:提出了一种新的提示策略PedCoT,该策略基于教育理论,可以有效地识别数学推理错误;实验结果表明,PedCoT策略可以显著优于强基线模型;本文提供了一个可行的自我纠正方法,为自动化数学答案评分提供了基础。
- 近期的相关研究包括:Self-Correction in Language Models via Two-Stage Fine-Tuning and Prompting、Improving Prompt-based Reasoning of Language Models、Prompting Strategies for Large Language Models with Few-shot Learning、Bloom's Taxonomy and Critical Thinking Instruction: Relationship and Effects on Clinical Reasoning.
沙发等你来抢
去评论
评论
沙发等你来抢