Benchmarking Agentic Workflow Generation

2024年10月10日
  • 简介
    大型语言模型(LLMs)以其出色的处理各种任务的能力,在解决推理和规划任务方面取得了重大进展,其中将复杂问题分解为可执行的工作流是这一过程中的关键步骤。现有的工作流评估框架要么仅关注整体性能,要么存在限制性场景覆盖、简化的工作流结构和宽松的评估标准等缺点。因此,我们介绍了WorFBench,一个统一的工作流生成基准,具有多方面的场景和复杂的图形工作流结构。此外,我们提出了WorFEval,一种系统性评估协议,利用子序列和子图匹配算法准确量化LLM代理的工作流生成能力。通过对不同类型的LLMs进行全面评估,我们发现LLM代理的序列规划能力和图形规划能力之间存在明显差距,即使是GPT-4也存在约15%的差距。我们还训练了两个开源模型,并评估了它们在保留任务上的泛化能力。此外,我们观察到生成的工作流可以增强下游任务,使它们在推理过程中以更少的时间实现更优异的性能。代码和数据集将在https://github.com/zjunlp/WorFBench上提供。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文旨在解决工作流生成评估框架的限制问题,提出了一个统一的工作流生成基准测试 WorFBench,并设计了 WorFEval 评估协议,以准确量化 LLM 代理的工作流生成能力。
  • 关键思路
    WorFBench 是一个多方面场景和复杂图形工作流结构的统一工作流生成基准测试,WorFEval 是一个系统评估协议,利用子序列和子图匹配算法来准确量化 LLM 代理的工作流生成能力。
  • 其它亮点
    论文通过对不同类型的 LLM 进行全面的评估,发现 LLM 代理的序列规划能力和图形规划能力之间存在明显差距,即使 GPT-4 也存在约 15% 的差距。此外,论文还训练了两个开源模型,并评估了它们在保留任务上的泛化能力。研究发现,生成的工作流可以增强下游任务,在推理过程中实现更高的性能,使用了 WorFBench 数据集和开源代码。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Workflow generation with reinforcement learning》、《A deep reinforcement learning approach for workflow scheduling in cloud computing》、《A survey of workflow scheduling algorithms in cloud computing》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问