SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines

2025年02月20日
  • 简介
    大型语言模型(LLMs)在数学、物理和计算机科学等主流学术领域展现了卓越的能力。然而,人类知识涵盖了超过200个专业学科,远远超出了现有基准的范围。LLMs在许多这些专业领域中的能力——尤其是在轻工业、农业和服务导向学科中——尚未得到充分评估。为了解决这一差距,我们推出了SuperGPQA,这是一个全面的基准测试,用于评估285个学科的研究生水平的知识和推理能力。我们的基准采用了一种新颖的人类-LLM协作过滤机制,通过基于LLM响应和专家反馈的迭代改进来消除简单或模棱两可的问题。我们的实验结果揭示了当前最先进的LLMs在不同知识领域中的表现仍有很大的提升空间(例如,专注于推理的模型DeepSeek-R1在SuperGPQA上的最高准确率为61.82%),突显了当前模型能力和通用人工智能之间显著的差距。此外,我们还提供了关于管理大规模注释过程的综合见解,该过程涉及超过80名专家注释者和一个互动的人类-LLM协作系统,为未来类似规模的研究项目提供了宝贵的方法论指导。
  • 图表
  • 解决问题
    该论文试图解决大型语言模型(LLMs)在超过200个专业学科中的评估不足问题,尤其是轻工业、农业和服务导向学科等领域的知识和推理能力。这揭示了现有基准测试的局限性,并提出需要一个更全面的评估框架来衡量LLMs的能力。
  • 关键思路
    论文的关键思路是开发SuperGPQA这一综合基准,用于评估研究生级别的知识和推理能力,涵盖285个学科。该基准引入了一种新颖的人类-LLM协作过滤机制,通过迭代精炼基于LLM响应和专家反馈的问题,以消除琐碎或模棱两可的问题。相比现有研究,这种方法不仅扩大了评估范围,还提高了问题的质量和相关性。
  • 其它亮点
    其他值得关注的地方包括:1) 实验设计涵盖了广泛的学科领域,确保了评估的全面性;2) 使用了DeepSeek-R1等最先进的LLM进行测试,结果显示即使是最优模型也仅有61.82%的准确率,表明存在显著改进空间;3) 涉及超过80名专家注释者的大规模注释过程,展示了如何有效管理大规模数据标注;4) 提供了宝贵的关于未来研究方法论的指导,特别是在涉及多学科评估时。此外,论文并未提及是否有开源代码。
  • 相关研究
    最近在这个领域中,相关的研究还包括《Evaluating Large Language Models Trained on Code》和《Benchmarking Generalization in Pre-trained Language Models》等论文,这些研究同样关注于评估LLMs在不同任务上的泛化能力和性能。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论