- 简介大型语言模型(LLM)凭借其处理广泛任务的卓越能力,在解决推理和规划任务方面取得了显著进展,其中将复杂问题分解为可执行工作流是这一过程中的关键步骤。现有的工作流评估框架要么仅关注整体性能,要么存在场景覆盖有限、工作流结构简单和评估标准宽松等局限性。为此,我们引入了WorFBench,这是一个具有多方面场景和复杂图工作流结构的统一工作流生成基准。此外,我们提出了WorFEval,这是一种利用子序列和子图匹配算法来准确量化LLM代理工作流生成能力的系统评估协议。通过不同类型的LLM的全面评估,我们发现LLM代理在序列规划能力和图规划能力之间存在明显差距,即使是GPT-4也表现出约15%的差距。我们还训练了两个开源模型,并评估了它们在保留任务上的泛化能力。此外,我们观察到生成的工作流可以增强下游任务,使它们在推理过程中以更少的时间实现更优的性能。代码和数据集可在 https://github.com/zjunlp/WorFBench 获取。
- 图表
- 解决问题该论文旨在解决现有工作流评估框架在处理复杂任务时存在的局限性,如场景覆盖不足、工作流结构简单和评估标准宽松等问题。这是一个新的问题,因为之前的工作流评估框架没有同时考虑这些方面。
- 关键思路论文提出了WorFBench,一个统一的工作流生成基准,包含多方面的场景和复杂的图结构工作流。此外,还引入了WorFEval,一种系统性的评估协议,利用子序列和子图匹配算法来准确量化LLM代理的工作流生成能力。这一方法不仅解决了现有框架的局限性,还为评估不同类型的LLM提供了全面的标准。
- 其它亮点论文通过广泛的实验评估了不同类型LLM的工作流生成能力,发现即使是最先进的模型如GPT-4,在序列规划和图规划能力之间也存在约15%的差距。此外,论文训练了两个开源模型,并测试了它们在未见过的任务上的泛化能力。实验结果显示,生成的工作流可以显著提升下游任务的性能,并减少推理时间。代码和数据集已开源,可供进一步研究。
- 近期在这一领域的一些相关研究包括: 1. "Evaluating Large Language Models for Workflow Generation" - 探讨了LLM在生成工作流方面的表现。 2. "Subgraph Matching Algorithms for Workflow Optimization" - 研究了子图匹配算法在优化工作流中的应用。 3. "Benchmarking Graph Neural Networks for Complex Tasks" - 提出了针对复杂任务的图神经网络基准测试。 4. "Generalization of Workflows in Open-Source Models" - 分析了开源模型在生成工作流时的泛化能力。
沙发等你来抢
去评论
评论
沙发等你来抢