
报告主题:MATH-Perturb:评估大语言模型在面对复杂改动时的数学推理能力
报告日期:02月27日(下周四)10:30-11:30
报告要点:
大型语言模型在高难度数学推理任务上展现出了令人惊叹的能力,这引发了其是由真正的推理能力还是记忆能力(背题)所驱动的讨论。为了探讨这个问题,先前的研究通过简单改动构建了许多数学基准测试 —— 简单扰动过的问题仍然保留了解决方案的基本推理模式。然而,尚无研究探索“复杂改动”(hard perturbations),即从根本上改变问题的本质,使得原始的解题步骤不再适用。为弥补这一空白,我们分别通过简单改动和复杂改动构建了MATH-P-Simple 和 MATH-P-Hard。每个数据集包含 279 道改动的数学题,这些题目均源自 MATH 数据集中最难等级的问题。我们在多个模型上观察到 MATH-P-Hard 任务的显著性能下降,包括 o1-mini(下降 16.49%)和 gemini-2.0-flash-thinking(下降 12.9%)。此外,我们希望引起公众对大语言模型一种新的记忆现象的关注,即模型在不去思考所学解题技能是否适用于修改后的问题时,而是盲目地套用这些技能。这一效应在使用原始问题作为上下文学习(in-context learning)的样本时会被放大。我们呼吁研究界关注这一挑战,因为它对开发更鲁棒且可靠的推理模型至关重要。报告嘉宾:
黄凯旋现为普林斯顿大学的博士生,师从王梦迪教授。他曾在Google DeepMind公司实习研究大语言模型中的强化微调。在加入普林斯顿大学之前,他在北京大学获得应用数学和计算机科学技术双学位。他的研究兴趣广泛,包括大语言模型的推理(reasoning),强化学习和对齐技术在大语言模型和扩散生成模型中的应用,生成模型的安全性问题和鲁棒性,以及大语言模型智能体。黄凯旋在2024年获得谷歌PHD奖学金。
扫码报名
更多热门报告


内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢