AI-Assisted Generation of Difficult Math Questions

向作者提问

NEW

简介

目前，LLM将数学推理作为核心能力。公开的资源已经充分利用，人们对多样化和具有挑战性的数学问题的需求未得到满足。仅依靠人类专家既费时又昂贵，而由LLM生成的问题往往缺乏所需的多样性和难度。我们提出了一种设计框架，将LLM的优势与人机协同的方法相结合，生成多样化和具有挑战性的数学问题。我们利用LLM的元认知技能[Didolkar等人，2024]从现有的数学数据集中提取核心“技能”。这些技能作为生成新颖和困难问题的基础，通过提示LLM使用随机的核心技能对生成问题。每个问题中使用两种不同的技能使得LLM和人类都需要进行“超出分布”的任务。我们的流程使用LLM来迭代生成和完善问题和解决方案，通过多回合提示。然后，人类注释员验证和进一步完善问题，并通过进一步的LLM交互来提高效率。将此流程应用于从MATH数据集[Hendrycks等人，2021]中提取的技能，生成了MATH$^2$ - 一个更高质量的数学问题数据集，这表现在：(a)所有模型在MATH$^2$上的表现低于在MATH上的表现；(b)在使用MATH$^2$问题作为上下文示例时，在MATH上的表现更好。虽然重点是数学，但我们的方法似乎适用于其他需要结构化推理的领域，并且可能作为可扩展监督的组成部分。另一个有趣的问题是，我们观察到模型在新数据集上的表现之间存在明显的关系：在MATH$^2$上的成功率是MATH的平方，这表明成功解决MATH$^2$问题需要两种不同的数学技能的非平凡组合。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决利用人工智能生成多样化、具有挑战性的数学问题的问题，以满足当前LLM培训中数学推理作为核心能力的需求。
关键思路

本论文提出了一种将LLM和人类专家相结合的设计框架，通过利用LLM的元认知技能从现有的数学数据集中提取核心“技能”，并通过在这些核心技能中随机组合促使LLM生成新颖且具有挑战性的数学问题。人类专家通过与LLM的交互验证和进一步完善问题。在MATH数据集上的实验结果表明，该框架生成的MATH$^2$数据集中的数学问题比MATH数据集中的问题更具挑战性和高质量。
其它亮点

本论文的实验设计采用了MATH数据集和生成的MATH$^2$数据集，并验证了MATH$^2$数据集的高质量和挑战性。研究还发现，模型在MATH$^2$数据集上的成功率是在MATH数据集上成功率的平方，这表明成功地解决MATH$^2$问题需要两种不同的数学技能的非平凡组合。该方法还可以应用于其他需要结构化推理的领域，也可以作为可扩展监督的组成部分。
相关研究

在这个领域中，最近的相关研究包括Hendrycks等人的MATH数据集和Didolkar等人的LLM元认知技能。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问