Dual Instruction Tuning with Large Language Models for Mathematical Reasoning

简介

最近的进展突显了利用Chain-of-Thought（CoT）数据对数学推理任务进行大型语言模型（LLM）的指令调整的成功。尽管经过了精细调整的LLMs，仍然存在挑战，例如CoT生成中的错误、缺失和冗余步骤导致答案预测不准确。为了缓解这个问题，我们提出了一种双重指令调整策略，从正向和反向两个方向精细建模数学推理。这涉及到引入中间推理状态预测任务（正向推理）和指令重建任务（反向推理），以增强LLMs对指令的理解和执行能力。这些任务的训练实例基于现有的数学指令调整数据集构建。随后，LLMs通过使用现有的数学指令和新创建的数据进行多任务微调。全面的实验验证了双重指令调整策略在各种数学推理任务中的有效性和领域泛化性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决数学推理任务中CoT数据生成中存在的错误、遗漏和冗余步骤导致答案预测不准确的问题。
关键思路

论文提出了一种双重指令调整策略，从正向和反向两个方向精细建模数学推理，通过引入中间推理状态预测任务和指令重构任务来增强LLMs对指令的理解和执行。
其它亮点

论文通过构建现有数学指令调整数据集和新构建的训练实例，进行多任务微调，验证了双重指令调整策略在各种数学推理任务中的有效性和领域泛化能力。
相关研究

最近的相关研究包括使用LLMs进行数学推理任务的指令调整，以及使用CoT数据生成数学推理任务。

Dual Instruction Tuning with Large Language Models for Mathematical Reasoning

提问交流

提问交流