- 简介我们推出了FrontierCS,这是一个涵盖计算机科学多个领域的156道开放式问题的基准测试集,由计算机科学博士以及顶级编程竞赛参与者和题目设计者等专家共同设计并审核。与现有基准通常聚焦于具有已知最优解的任务不同,FrontierCS关注的是那些最优解尚不明确、但解决方案质量可被客观评估的问题。模型通过编写可执行程序来解决这些问题,而非直接输出答案。FrontierCS包含两类问题:一类是算法类问题,通常是带有客观部分评分机制的竞争性编程问题中的NP难变体;另一类是具有相同特性的研究型问题。针对每个问题,我们都提供了专家撰写的参考解法以及自动评测工具。凭借开放性设计、可度量的进步空间以及专家精心筛选的特点,FrontierCS构成了一个处于计算机科学难度前沿的评估基准。实验结果表明,当前最先进的推理模型在算法类和研究类任务上的表现仍远落后于人类专家;单纯增加推理资源预算无法显著缩小这一差距;同时,模型往往过度倾向于生成仅能运行的代码,而非真正发现高质量的算法或系统设计方案。
-
- 图表
- 解决问题论文试图解决当前AI模型在开放性、高质量计算机科学问题求解能力上的评估不足问题。现有基准(如HumanEval、MBPP)主要关注具有确定最优解的编程任务,难以衡量模型在算法设计、系统优化等前沿CS领域的真正创新能力。FrontierCS提出一个新问题:如何构建一个能客观评估模型在未知最优解但可量化质量的CS难题上表现的基准。这是一个相对较新的问题,聚焦于模型的‘前沿推理’与‘创造性解决问题’能力。
- 关键思路提出FrontierCS,一个包含156个开放式计算机科学问题的专家级基准,涵盖NP-hard算法变体和研究级问题,每个问题均可通过执行程序进行客观评分。关键创新在于:问题设计无已知最优解但支持部分得分,要求模型生成可执行代码而非直接答案,并由CS博士和顶尖竞赛选手设计评审,确保难度处于人类专家前沿。这区别于传统代码生成基准,强调‘质量连续谱’而非‘正确与否’。
- 其它亮点提供了每个问题的专家参考解和自动评测器;实验显示当前前沿推理模型(如o1系列)在算法与研究赛道均远落后于人类专家,且增加推理预算(如更多思维链步骤)无法显著缩小差距;发现模型倾向于生成‘可用但平庸’的代码,缺乏真正算法创新。数据集已开源,代码公开,未来可探索结合强化学习提升模型探索高质量解的能力。
- 1. Competitive Programming in the Age of Large Language Models: A Case Study on Codeforces 2. HumanEval: Evaluating Coding LLMs with Human-Centric Problems 3. MBPP: A Comprehensive Benchmark for Code Generation from Natural Language Problem Descriptions 4. APPS: An Automated Program Synthesis Dataset and Benchmark 5. CodeContests: A Dataset and Benchmark for Code Generation from Real Programming Competition Data
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流