CoT-Self-Instruct: Building high-quality synthetic prompts for reasoning and non-reasoning tasks

2025年07月31日
  • 简介
    我们提出了CoT-Self-Instruct,这是一种合成数据生成方法,指导大语言模型(LLM)首先基于给定的初始任务,通过思维链(Chain-of-Thought,CoT)进行推理和规划,然后生成一个在质量和复杂度上相近的新合成指令,用于LLM的训练。最后,我们通过自动指标对生成的数据进行筛选,以确保其高质量。在可验证的推理任务上,我们的合成数据在MATH500、AMC23、AIME24和GPQA-Diamond等多个数据集上显著优于现有的训练数据集,如s1k和OpenMathReasoning。而在不可验证的指令跟随任务上,我们的方法在AlpacaEval 2.0和Arena-Hard两个评测基准上,也超越了人类编写或标准自生成指令的性能表现。
  • 图表
  • 解决问题
    论文试图解决合成数据生成在大语言模型(LLM)训练中的质量和复杂性不足的问题,旨在生成与人类指令质量相当甚至更优的训练数据。这是一个重要的新问题,尤其是在非验证性任务(如指令跟随)中如何生成高质量数据并提升模型性能。
  • 关键思路
    提出了一种名为 CoT-Self-Instruct 的新方法,结合了 Chain-of-Thought(CoT)推理和自生成指令机制。LLM 首先通过推理和规划生成中间思维链,再基于此生成高质量、复杂度相当的训练提示。相比传统 Self-Instruct 方法,加入了推理过程以提升生成数据的逻辑性和准确性。
  • 其它亮点
    1. 在多个数学推理基准(如 MATH500、AMC23、AIME24 和 GPQA-Diamond)上显著优于现有数据集(如 s1k 和 OpenMathReasoning) 2. 在非验证性任务(如指令跟随)上,在 AlpacaEval 2.0 和 Arena-Hard 上表现优于人类或标准 Self-Instruct 提示 3. 引入了自动过滤机制以筛选高质量合成数据,提升了训练效率 4. 方法具备可扩展性,适合用于生成更复杂任务的训练数据
  • 相关研究
    1. Self-Instruct: Aligning Language Models without Human Feedback (Wang et al., 2022) 2. s1k: A Synthetic Dataset for Instruction Tuning at Scale 3. OpenMathReasoning: 开放式数学推理数据集 4. AlpacaEval 2.0: A Benchmark for Evaluating Instruction Following in LLMs 5. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (Kojima et al., 2022)
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论