The CLRS-Text Algorithmic Reasoning Language Benchmark

2024年06月06日
  • 简介
    从语言模型(LMs)中引出推理能力是建立智能系统的关键方向。最近的大部分研究都致力于在特定的合成基准测试中评估特定技能的超分布性能。这种趋势使得结果难以在出版物之间进行转移,从而减缓了进展。三年前,在神经算法推理领域中发现了类似的问题,并随着CLRS基准测试的出现而得到了纠正。CLRS是一个数据集生成器,包括来自《算法导论》教材的经典算法的图执行跟踪。在此基础上,我们提出了CLRS-Text——这些算法跟踪的文本版本。CLRS-Text可以直接在任何所需的输入分布上生成30个不同的、具有挑战性的算法任务的跟踪数据,同时提供标准管道,可以在基准测试中创建任何其他的算法任务。我们对各种LM进行微调和评估,作为通用执行器在这个基准测试上,验证了之前的工作,并揭示了一个新颖、有趣的LM推理挑战。我们的代码可在https://github.com/google-deepmind/clrs/tree/master/clrs/_src/clrs_text上找到。
  • 图表
  • 解决问题
    论文旨在通过提出CLRS-Text基准测试,解决从语言模型中提取推理能力的问题。这是一个新的问题吗?
  • 关键思路
    CLRS-Text是一个基于文本的算法执行跟踪数据集生成器,可以为30个不同的算法任务生成跟踪数据,同时提供标准流程以创建基准测试中的任何其他算法任务。通过对各种语言模型进行微调和评估,论文验证了先前的工作,并为LM推理社区提供了一项新的、有趣的挑战。
  • 其它亮点
    论文提出了CLRS-Text基准测试,可以为30个不同的算法任务生成跟踪数据,并提供了标准流程以创建基准测试中的任何其他算法任务。论文对各种语言模型进行了微调和评估,并公开了代码。这项工作为LM推理社区提供了一个新的、有趣的挑战。
  • 相关研究
    最近的相关研究包括使用合成基准测试来评估推理性能的研究,以及神经算法推理领域的CLRS基准测试。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论