大型语言模型(LLMs)在编程和数学推理任务中展现出强大的能力,但受限于高质量训练数据的不足。合成数据可以用来提升微调效果,但这一过程受到多个因素的影响,包括模型规模、合成数据量、剪枝策略以及微调轮次的数量。我们在这几个维度上进行探索,并研究哪些条件能够促使模型实现自我改进。我们提出了“思考、剪枝、训练”(Think, Prune, Train)流程,这是一种可扩展的框架,通过迭代地使用模型自身的推理轨迹进行微调,并借助基于真实标签的剪枝来保证训练数据的质量。这种方法显著提升了性能:在GSM8K数据集上,Gemma2-2B的Pass@1指标从41.9%提高到57.6%,Gemma2-9B达到82%,与LLaMA-3.1-70B持平,而LLaMA-3.1-70B更是达到了91%,甚至超过了GPT-4o。这表明,通过自动生成推理数据和系统化的数据选择,可以有效提升LLM的能力。