Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages

2024年07月03日
  • 简介
    最近的许多研究探索了使用语言模型解决规划问题的方法。其中一条研究路线专注于将规划任务的自然语言描述翻译成结构化的规划语言,例如规划领域定义语言(PDDL)。虽然这种方法很有前途,但是准确地衡量生成的PDDL代码的质量仍然存在显着的挑战。首先,生成的PDDL代码通常使用规划验证器进行评估,以检查问题是否可以使用规划器解决。这种方法是不够的,因为语言模型可能会生成有效的PDDL代码,但这些代码与任务的自然语言描述不一致。其次,现有的评估集通常具有与真实PDDL非常相似的规划任务的自然语言描述,从而降低了任务的难度。为了弥合这一差距,我们介绍了一个名为\benchmarkName 的基准测试,旨在评估语言模型从规划任务的自然语言描述生成PDDL代码的能力。我们首先创建了一个PDDL等价算法,通过灵活地将其与真实PDDL进行比较,严格评估了语言模型生成的PDDL代码的正确性。然后,我们提供了一个数据集,包括13个不同任务的132,037个文本到PDDL对,难度各异。最后,我们评估了几种API访问和开放权重的语言模型,揭示了这个任务的复杂性。例如,GPT-4o生成的87.6%的PDDL问题描述在语法上是可解析的,82.2%是有效的可解决问题,但只有35.1%在语义上是正确的,突出了需要更严格的基准测试来解决这个问题。
  • 图表
  • 解决问题
    评估自然语言到PDDL的转换模型的质量
  • 关键思路
    引入了一个新的基准测试——Benchmark,使用PDDL等价算法来评估自然语言到PDDL的转换模型的正确性,提高了评估的严谨性和难度。
  • 其它亮点
    文章提出了一个新的基准测试——Benchmark,包含13个不同难度的任务,共132,037个文本到PDDL的对应,使用PDDL等价算法来评估模型的正确性,揭示了当前自然语言到PDDL转换模型的局限性和挑战。文章还评估了几个API-access和open-weight语言模型的表现,发现其中大部分的PDDL代码都是可解的,但只有少数是语义正确的,需要更加严谨的评估标准。
  • 相关研究
    最近的相关研究主要集中在使用语言模型解决规划问题,包括将自然语言描述转换为规划语言,以及使用语言模型生成规划方案等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论