Humanity's Last Exam

2025年01月24日
  • 简介
    基准测试是跟踪大型语言模型(LLM)能力快速进步的重要工具。然而,这些基准测试在难度上未能跟上步伐:目前的大型语言模型在像MMLU这样受欢迎的基准测试中已经达到了超过90%的准确率,这限制了对最先进大型语言模型能力的有效评估。为此,我们推出了“人类最后的考试”(HLE),这是一个涵盖广泛学科、处于人类知识前沿的多模态基准测试,旨在成为最后一项封闭式学术基准测试。HLE包含3000个问题,涉及数十个学科领域,包括数学、人文科学和自然科学。HLE由全球各领域的专家开发,包含选择题和简答题,适合自动评分。每个问题都有一个已知的、明确且易于验证的答案,但不能通过互联网快速检索得到答案。 最先进的大型语言模型在HLE上的准确率和校准表现较低,突显了当前大型语言模型能力与封闭式学术问题上的人类专家水平之间存在显著差距。为了在清晰了解模型能力的基础上为研究和政策制定提供信息,我们将在https://lastexam.ai公开发布HLE。
  • 图表
  • 解决问题
    论文试图解决当前语言模型能力评估基准(benchmarks)跟不上模型快速进步的问题,特别是现有的基准测试如MMLU已无法有效区分最先进语言模型的能力差异。这并非一个全新的问题,但该研究针对现有基准的局限性提出了具体的解决方案。
  • 关键思路
    关键思路在于开发一个名为‘Humanity's Last Exam (HLE)’的新基准测试,旨在覆盖广泛的知识领域并挑战当前语言模型的极限。HLE由全球各领域的专家共同设计,包含3000个涵盖数学、人文学科和自然科学的问题,且这些问题的答案明确但无法通过简单的网络搜索获得。与现有研究相比,HLE的独特之处在于其难度设置在人类专家水平,能够更准确地衡量语言模型的真实能力。
  • 其它亮点
    论文的亮点包括:1) HLE是一个多模态基准,不仅限于文本形式;2) 包含多种题型,如选择题和简答题,适合自动化评分;3) 最先进的语言模型在HLE上的表现不佳,表明存在显著的能力差距;4) 数据集已公开发布,鼓励更多研究人员参与改进模型性能的研究。此外,作者还提供了详细的实验设计说明,以及如何构建和验证这些复杂问题的方法。
  • 相关研究
    最近的相关研究包括《Evaluating Large Language Models Trained on Code》, 《Big-Bench: A Framework for Evaluating Language Models at Scale》等。这些研究同样关注于提高语言模型评估标准的严谨性和多样性,但HLE以其独特的难度设定和广泛的学科覆盖脱颖而出。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论