- 简介LLM型智能体已经成为一种有前途的工具,通过迭代的规划和行动来完成复杂任务。然而,当缺乏专业知识时,这些智能体容易出现不良的规划幻觉。为了解决这个问题,人们已经开始尝试通过加入外部与工作流相关的知识来增强规划的可靠性。尽管这种注入的知识具有很大的潜力,但它大多数是杂乱无章的,格式多样,缺乏严格的形式化和全面的比较。受此启发,我们对不同格式的工作流知识进行了形式化,并提出了FlowBench,这是第一个用于工作流引导规划的基准测试。FlowBench涵盖了来自6个领域的51种不同情境,知识以多种格式呈现。为了评估不同的LLM智能体在FlowBench上的表现,我们设计了一个多层次的评估框架。我们评估了不同格式的工作流知识的功效,结果表明当前的LLM智能体需要相当大的改进才能实现令人满意的规划。我们希望我们具有挑战性的基准测试可以为未来的智能体规划研究铺平道路。
- 图表
- 解决问题提高LLM代理人的规划可靠性,通过引入外部工作流相关知识来解决规划幻觉问题。
- 关键思路将不同格式的工作流知识形式化,创建FlowBench基准测试,评估不同LLM代理人在不同格式的工作流知识下的规划效果。
- 其它亮点FlowBench覆盖了6个领域的51种不同情境,涵盖了多种格式的工作流知识。设计了多层次的评估框架,评估了工作流知识在不同格式下的效果。结果表明,当前的LLM代理人在规划方面需要进一步改进。
- 最近的相关研究包括:《使用机器学习技术进行规划的综述》、《基于知识的规划:现状与未来方向》、《工作流管理系统的综述》等。
沙发等你来抢
去评论
评论
沙发等你来抢