- 简介目前,LLM将数学推理作为核心能力。公开的资源已经充分利用,人们对多样化和具有挑战性的数学问题的需求未得到满足。仅依靠人类专家既费时又昂贵,而由LLM生成的问题往往缺乏所需的多样性和难度。我们提出了一种设计框架,将LLM的优势与人机协同的方法相结合,生成多样化和具有挑战性的数学问题。我们利用LLM的元认知技能[Didolkar等人,2024]从现有的数学数据集中提取核心“技能”。这些技能作为生成新颖和困难问题的基础,通过提示LLM使用随机的核心技能对生成问题。每个问题中使用两种不同的技能使得LLM和人类都需要进行“超出分布”的任务。我们的流程使用LLM来迭代生成和完善问题和解决方案,通过多回合提示。然后,人类注释员验证和进一步完善问题,并通过进一步的LLM交互来提高效率。将此流程应用于从MATH数据集[Hendrycks等人,2021]中提取的技能,生成了MATH$^2$ - 一个更高质量的数学问题数据集,这表现在:(a)所有模型在MATH$^2$上的表现低于在MATH上的表现;(b)在使用MATH$^2$问题作为上下文示例时,在MATH上的表现更好。虽然重点是数学,但我们的方法似乎适用于其他需要结构化推理的领域,并且可能作为可扩展监督的组成部分。另一个有趣的问题是,我们观察到模型在新数据集上的表现之间存在明显的关系:在MATH$^2$上的成功率是MATH的平方,这表明成功解决MATH$^2$问题需要两种不同的数学技能的非平凡组合。
-
- 图表
- 解决问题本论文旨在解决利用人工智能生成多样化、具有挑战性的数学问题的问题,以满足当前LLM培训中数学推理作为核心能力的需求。
- 关键思路本论文提出了一种将LLM和人类专家相结合的设计框架,通过利用LLM的元认知技能从现有的数学数据集中提取核心“技能”,并通过在这些核心技能中随机组合促使LLM生成新颖且具有挑战性的数学问题。人类专家通过与LLM的交互验证和进一步完善问题。在MATH数据集上的实验结果表明,该框架生成的MATH$^2$数据集中的数学问题比MATH数据集中的问题更具挑战性和高质量。
- 其它亮点本论文的实验设计采用了MATH数据集和生成的MATH$^2$数据集,并验证了MATH$^2$数据集的高质量和挑战性。研究还发现,模型在MATH$^2$数据集上的成功率是在MATH数据集上成功率的平方,这表明成功地解决MATH$^2$问题需要两种不同的数学技能的非平凡组合。该方法还可以应用于其他需要结构化推理的领域,也可以作为可扩展监督的组成部分。
- 在这个领域中,最近的相关研究包括Hendrycks等人的MATH数据集和Didolkar等人的LLM元认知技能。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流