LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages

2024年06月10日
  • 简介
    本文介绍了LingOly基准测试,这是一种用于评估大型语言模型高级推理能力的新型基准测试。我们使用具有挑战性的语言奥林匹克难题,评估了模型在极低资源或濒危语言中识别和推广语言模式以及遵循复杂任务指令的能力。LingOly基准测试涵盖了90多种主要是低资源语言,最大限度地减少了数据污染问题,并包含了1133个难度分别为人类水平的6种格式和5个难度级别的问题。我们使用直接准确性和与无上下文基线的比较来评估性能,以惩罚记忆。来自11个最先进的语言模型的得分表明,该基准测试具有挑战性,并且模型在更高难度的问题上表现不佳。在更难的问题上,即使是顶级模型也只能达到35.3%的准确率,比无上下文基线提高了21.7%。大型封闭模型通常优于开放模型,并且一般来说,资源越丰富的语言,得分越好。这些结果表明,在没有记忆的情况下,真正的多步骤跨领域推理对于当前的语言模型仍然是一项挑战。
  • 图表
  • 解决问题
    评估大型语言模型的高级推理能力:LingOly基准测试
  • 关键思路
    使用具有挑战性的语言奥林匹克难题来评估语言模型在极低资源或濒危语言中识别和推广语言模式的能力,以及遵循复杂任务说明的能力。
  • 其它亮点
    LingOly基准测试覆盖90多种大多数为低资源语言,包含1133个问题,评估了11个最先进的LLM的性能,结果表明,真正的多步跨领域推理仍然是当前语言模型的一个挑战。
  • 相关研究
    最近的相关研究包括SuperGLUE、GPT-3等语言模型的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论