- 简介我们揭示了一个基本的发现,这一发现挑战了我们对大型语言模型中复杂推理能力如何涌现的理解。传统观点认为,复杂的推理任务需要大量的训练数据(超过10万个样本),而我们的研究表明,仅用少量示例就能有效激发复杂的数学推理能力。通过全面的实验,我们提出的模型LIMO在数学推理方面展示了前所未有的性能。仅使用817个精心挑选的训练样本,LIMO在AIME上达到了57.1%的准确率,在MATH上达到了94.8%的准确率,分别从之前的基于SFT的模型的6.5%和59.2%大幅提升,同时仅用了之前方法所需训练数据的1%。LIMO展示了卓越的分布外泛化能力,在10个不同的基准测试中实现了40.5%的绝对提升,超过了那些使用100倍更多数据训练的模型,这挑战了SFT只会导致记忆而非泛化的观念。 基于这些结果,我们提出了“少即是多”推理假说(LIMO假说):在预训练过程中已经全面编码了领域知识的基础模型中,通过最小但精心设计的认知过程演示,可以涌现出复杂的推理能力。该假说指出,复杂推理能力的激发阈值由两个关键因素决定:(1) 模型在预训练过程中编码的知识基础的完整性;(2) 后训练示例作为“认知模板”的有效性,这些示例展示了模型如何利用其知识库来解决复杂的推理任务。为了促进可重复性和未来在数据高效推理方面的研究,我们发布了LIMO作为一个全面的开源套件,网址为https://github.com/GAIR-NLP/LIMO。
- 图表
- 解决问题该论文试图解决如何在大型语言模型中有效激发复杂推理能力的问题,特别是验证是否可以通过少量的训练样本实现高效的数学推理。这是一个相对较新的问题,挑战了传统上认为复杂推理任务需要大量训练数据的观点。
- 关键思路论文的关键思路是提出了“Less-Is-More Reasoning Hypothesis(LIMO Hypothesis)”,即在预训练阶段已经充分编码了领域知识的基础模型中,通过精心设计的少量示例作为‘认知模板’,可以激发模型的复杂推理能力。这一思路与当前依赖大量训练数据的研究不同,强调了高质量、精简的训练样本的重要性。
- 其它亮点论文的亮点包括:1) LIMO模型仅使用817个训练样本,在AIME和MATH基准测试中分别达到了57.1%和94.8%的准确率,显著优于现有模型;2) 模型展示了出色的泛化能力,在10个不同的基准测试中平均提升了40.5%的性能;3) 论文开源了LIMO模型及其训练数据,便于复现和进一步研究;4) 提出了一个新的假设,为未来的研究提供了理论基础。
- 最近在这个领域,相关的研究还包括:1)《Scaling Laws for Neural Language Models》探讨了模型规模与性能之间的关系;2)《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》研究了通过提示链激发模型推理能力的方法;3)《Mathematical Reasoning in Large Language Models》分析了大模型在数学推理中的表现。这些研究都从不同角度探索了如何提高语言模型的推理能力。
沙发等你来抢
去评论
评论
沙发等你来抢