PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset

2024年03月05日
  • 简介
    最近,社区内对于大型语言模型是否能够进行计划或执行计划的能力越来越感兴趣。然而,大多数以往的研究都是使用LLMs来生成简化场景下的高层计划,缺乏语言复杂性和领域多样性,限制了对它们计划能力的分析。这些设置限制了评估方法(例如预定义的行动空间),架构选择(例如仅限生成模型),并忽略了对于现实分析至关重要的语言细微差别。为了解决这个问题,我们提出了PARADISE,这是一个使用Q&A格式的诱导推理任务,使用来自wikiHow的实际程序文本。它涉及与目标直接相关的警告和提示推理任务,排除了中间步骤,旨在测试模型仅从给定目标中推断出计划的隐含知识的能力。我们的实验利用了经过微调的语言模型和零-shot提示,揭示了在大多数情况下,任务特定的小模型比大型语言模型更有效。尽管有所进展,所有模型都不及人类表现。值得注意的是,我们的分析揭示了有趣的见解,例如关键词被删除时模型行为的变化,BERT家族和GPT-4在物理和抽象目标方面的挣扎,以及所提出的任务为其他未见过的程序任务提供了有价值的先验知识。PARADISE数据集和相关资源可在https://github.com/GGLAB-KU/paradise进行公开获取,以进行进一步的研究探索。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在探讨大型语言模型是否具备规划和执行计划的能力,特别是在复杂语言和领域多样性的情况下。该论文提出了一个名为PARADISE的任务,旨在测试模型从给定的目标中推断出计划的能力。
  • 关键思路
    PARADISE任务是一个基于wikiHow实用程序文本的推理任务,涉及与目标直接相关的警告和提示推断任务,旨在测试模型仅从给定的目标中推断计划的隐含知识的能力。使用细调的语言模型和零-shot提示,实验结果表明,在大多数情况下,针对特定任务的小型模型比大型语言模型更有效。但所有模型都不如人类表现。
  • 其它亮点
    PARADISE数据集和相关资源已公开提供,可供进一步研究探索。实验结果揭示了有趣的见解,如丢失关键字的模型行为变化,BERT系列和GPT-4在物理和抽象目标方面的困难,以及所提出的任务为其他未见过的程序性任务提供了有价值的先验知识。
  • 相关研究
    最近的相关研究包括使用大型语言模型生成高级计划的研究,但这些研究缺乏语言复杂性和领域多样性,限制了对其规划能力的分析。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问