NEW

FrontierCS: Evolving Challenges for Evolving Intelligence

Qiuyang Mang ,

Wenhao Chai ,

Zhifei Li ,

Huanzhi Mao ,

Shang Zhou ,

Alexander Du ,

Hanchen Li ,

Shu Liu ,

Edwin Chen ,

Yichuan Wang ,

Xieting Chu ,

Zerui Cheng ,

Yuan Xu ,

Tian Xia ,

Zirui Wang ,

Tianneng Shi ,

Jianzhu Yao ,

Yilong Zhao ,

Qizheng Zhang ,

Charlie Ruan ,

Zeyu Shen ,

Kaiyuan Liu ,

Runyuan He ,

Dong Xing ,

Zerui Li ,

Zirong Zeng ,

Yige Jiang ,

Lufeng Cheng ,

Ziyi Zhao ,

Youran Sun ,

Wesley Zheng ,

Meiyuwang Zhang ,

Ruyi Ji ,

Xuechang Tu ,

Zihan Zheng ,

Zexing Chen ,

Kangyang Zhou ,

Zhaozi Wang ,

Jingbang Chen ,

Aleksandra Korolova ,

Peter Henderson ,

Pramod Viswanath ,

Vijay Ganesh ,

Saining Xie ,

Zhuang Liu ,

Dawn Song ,

Sewon Min ,

Ion Stoica ,

Joseph E. Gonzalez ,

Jingbo Shang ,

Alvin Cheung

热度 494

2025年12月17日

简介

我们推出了FrontierCS，这是一个涵盖计算机科学多个领域的156道开放式问题的基准测试集，由计算机科学博士以及顶级编程竞赛参与者和题目设计者等专家共同设计并审核。与现有基准通常聚焦于具有已知最优解的任务不同，FrontierCS关注的是那些最优解尚不明确、但解决方案质量可被客观评估的问题。模型通过编写可执行程序来解决这些问题，而非直接输出答案。FrontierCS包含两类问题：一类是算法类问题，通常是带有客观部分评分机制的竞争性编程问题中的NP难变体；另一类是具有相同特性的研究型问题。针对每个问题，我们都提供了专家撰写的参考解法以及自动评测工具。凭借开放性设计、可度量的进步空间以及专家精心筛选的特点，FrontierCS构成了一个处于计算机科学难度前沿的评估基准。实验结果表明，当前最先进的推理模型在算法类和研究类任务上的表现仍远落后于人类专家；单纯增加推理资源预算无法显著缩小这一差距；同时，模型往往过度倾向于生成仅能运行的代码，而非真正发现高质量的算法或系统设计方案。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决当前AI模型在开放性、高质量计算机科学问题求解能力上的评估不足问题。现有基准（如HumanEval、MBPP）主要关注具有确定最优解的编程任务，难以衡量模型在算法设计、系统优化等前沿CS领域的真正创新能力。FrontierCS提出一个新问题：如何构建一个能客观评估模型在未知最优解但可量化质量的CS难题上表现的基准。这是一个相对较新的问题，聚焦于模型的‘前沿推理’与‘创造性解决问题’能力。
关键思路

提出FrontierCS，一个包含156个开放式计算机科学问题的专家级基准，涵盖NP-hard算法变体和研究级问题，每个问题均可通过执行程序进行客观评分。关键创新在于：问题设计无已知最优解但支持部分得分，要求模型生成可执行代码而非直接答案，并由CS博士和顶尖竞赛选手设计评审，确保难度处于人类专家前沿。这区别于传统代码生成基准，强调‘质量连续谱’而非‘正确与否’。
其它亮点

提供了每个问题的专家参考解和自动评测器；实验显示当前前沿推理模型（如o1系列）在算法与研究赛道均远落后于人类专家，且增加推理预算（如更多思维链步骤）无法显著缩小差距；发现模型倾向于生成‘可用但平庸’的代码，缺乏真正算法创新。数据集已开源，代码公开，未来可探索结合强化学习提升模型探索高质量解的能力。
相关研究

1. Competitive Programming in the Age of Large Language Models: A Case Study on Codeforces 2. HumanEval: Evaluating Coding LLMs with Human-Centric Problems 3. MBPP: A Comprehensive Benchmark for Code Generation from Natural Language Problem Descriptions 4. APPS: An Automated Program Synthesis Dataset and Benchmark 5. CodeContests: A Dataset and Benchmark for Code Generation from Real Programming Competition Data

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问