- 简介大型语言模型(LLMs)以其卓越的能力处理广泛的任务,推动了在解决推理和规划任务方面的重要进展,在这个过程中,将复杂问题分解为可执行的工作流程是一个关键步骤。现有的工作流评估框架要么只关注整体性能,要么存在局限性,例如场景覆盖范围有限、工作流结构简单以及评估标准宽松。为此,我们引入了WorfBench,这是一个具有多方面场景和复杂图工作流结构的统一工作流生成基准。此外,我们还提出了WorfEval,这是一种系统性的评估协议,利用子序列和子图匹配算法准确量化LLM代理的工作流生成能力。通过对不同类型LLM的全面评估,我们发现了LLM代理在序列规划能力和图规划能力之间的显著差距,即使是GPT-4也表现出大约15%的差距。我们还训练了两个开源模型,并评估了它们在保留任务上的泛化能力。此外,我们观察到生成的工作流可以增强下游任务,使它们在推理过程中用更少的时间实现更好的性能。代码和数据集可在https://github.com/zjunlp/WorfBench获得。
- 图表
- 解决问题该论文旨在解决大型语言模型(LLM)在处理复杂工作流生成任务时面临的挑战,特别是现有评估框架要么仅关注整体性能,要么存在场景覆盖有限、工作流结构简单和评估标准宽松等问题。这是一个相对较新的问题,随着LLMs能力的增强,如何精确评估其在复杂任务规划中的表现变得越来越重要。
- 关键思路关键思路是引入WorfBench和WorfEval两个工具。WorfBench是一个统一的工作流生成基准测试平台,具有多方面的情景设置和复杂的图结构工作流。WorfEval则是一个系统性的评估协议,利用子序列和子图匹配算法来准确量化LLM代理的工作流生成能力。这种方法不仅涵盖了更广泛的任务情景,还通过严格的评估标准提高了评估的准确性。
- 其它亮点论文的亮点包括:1) 设计了复杂的工作流结构,超越了以往研究中简单的线性或树状结构;2) 提出了WorfEval评估协议,使用先进的匹配算法确保评估的精确性;3) 发现了即使是高级LLM如GPT-4,在序列规划和图规划能力之间也存在约15%的差距;4) 训练了两个开源模型,并评估了它们在未见过的任务上的泛化能力;5) 开源了代码和数据集,方便后续研究者复现结果并进一步探索。这些发现为未来的研究提供了有价值的方向。
- 最近在这个领域中,还有其他相关的研究被进行。例如,《Evaluating Large Language Models on Complex Reasoning Tasks》探讨了LLMs在复杂推理任务中的表现;《Graph-based Planning for Long-horizon Tasks》研究了基于图的长期任务规划方法;《Benchmarking Multi-hop Reasoning in Pre-trained Models》提出了一个多跳推理的基准测试。此外,《Subgraph Matching Algorithms for Workflow Evaluation》专注于子图匹配算法在工作流评估中的应用。
沙发等你来抢
去评论
评论
沙发等你来抢