NATURAL PLAN: Benchmarking LLMs on Natural Language Planning

2024年06月06日
  • 简介
    我们介绍了一个名为NATURAL PLAN的自然语言真实规划基准,其中包含三个关键任务:旅行规划、会议规划和日历安排。我们将评估重点放在LLM的规划能力上,提供Google Flights、Google Maps和Google Calendar等工具的输出作为模型的上下文,以便进行完整信息的任务评估。这消除了在规划评估中使用工具环境的需求。我们观察到,NATURAL PLAN是目前最先进的模型的一个具有挑战性的基准。例如,在旅行规划中,GPT-4和Gemini 1.5 Pro仅能分别实现31.1%和34.8%的解决率。我们发现,随着问题复杂度的增加,模型的性能急剧下降:当有10个城市时,所有模型的表现都低于5%,突显了目前最先进的LLM在自然语言规划方面存在的显著差距。我们还在NATURAL PLAN上进行了广泛的消融研究,进一步阐明了自我纠正、少样本泛化和长上下文中的上下文规划等方法对提高LLM规划效果的(无)效性。
  • 图表
  • 解决问题
    论文试图评估语言模型在自然语言计划任务中的表现,特别是在复杂任务中的表现如何?
  • 关键思路
    论文提出了一个新的自然语言计划基准测试集NATURAL PLAN,该测试集提供了来自Google Flights、Google Maps和Google Calendar等工具的上下文信息,评估了具有完整任务信息的LLMs的规划能力。
  • 其它亮点
    NATURAL PLAN是一个具有挑战性的基准测试集,GPT-4和Gemini 1.5 Pro在旅行计划任务上的解决率仅为31.1%和34.8%。随着问题复杂度的增加,模型的性能急剧下降。研究还进行了大量消融实验,探讨了自我纠正、少样本泛化和长上下文中的规划等方法对LLM规划的有效性。
  • 相关研究
    在自然语言计划领域,最近的相关研究包括:《Towards Scalable Multi-Domain Conversational Agents: The Schema-Guided Dialogue Dataset》、《Plan-And-Write: Towards Better Automatic Storytelling》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论