A Survey on the Optimization of Large Language Model-based Agents

简介

随着大规模语言模型（LLM）的快速发展，基于LLM的智能体已在多个领域得到广泛应用，成为自主决策和交互任务中的关键组成部分。然而，当前的研究通常依赖于对基础LLM进行提示设计或微调策略，这在复杂的智能体相关环境中往往导致效果有限或性能次优。尽管LLM优化技术能够在许多通用任务中提升模型性能，但在诸如长期规划、动态环境交互和复杂决策等关键智能体功能方面，缺乏专门的优化手段。虽然近期许多研究探索了各种优化基于LLM的智能体以应对复杂任务的策略，但从整体视角对这些方法进行系统总结和比较的研究仍然不足。在本综述中，我们全面回顾了基于LLM的智能体优化方法，并将其分为参数驱动和非参数驱动两类方法。首先，我们聚焦于参数驱动优化，涵盖基于微调的优化、基于强化学习的优化以及混合策略，分析了轨迹数据构建、微调技术、奖励函数设计和优化算法等关键方面。此外，我们还简要讨论了通过提示工程和外部知识检索优化智能体行为的非参数驱动策略。最后，我们总结了用于评估和调优的数据集与基准，回顾了基于LLM的智能体的关键应用，并探讨了主要挑战及未来有前景的发展方向。我们的相关参考资源库可在以下链接获取：https://github.com/YoungDubbyDu/LLM-Agent-Optimization。
图表
解决问题

论文试图解决如何优化基于大语言模型（LLM）的智能体在复杂任务中的表现问题。这并不是一个全新的问题，但当前方法通常依赖于提示设计或微调策略，这些方法在长期规划、动态环境交互和复杂决策等关键功能上存在局限性。
关键思路

论文提出从参数驱动和非参数驱动两个角度对LLM-based agents进行优化。参数驱动方法包括基于微调的优化、强化学习优化以及混合策略；而非参数驱动方法则通过提示工程和外部知识检索来改进智能体行为。相比现有研究，该论文提供了一个系统化的框架，总结并比较了不同优化策略的特点与适用场景。
其它亮点

1. 提供了全面的分类体系，将LLM智能体优化方法分为参数驱动和非参数驱动两大类，并深入分析了每种方法的核心技术细节；2. 强调了轨迹数据构建、奖励函数设计等关键技术的重要性；3. 总结了常用的数据集和基准测试工具，并讨论了实际应用场景及未来挑战；4. 论文附带了一个GitHub仓库，用于整理相关参考文献，方便后续研究者查阅。此外，论文还指出了许多值得进一步探索的方向，例如跨模态智能体优化和多智能体协作。
相关研究

近年来，关于LLM智能体优化的研究层出不穷，例如：《Reinforcement Learning with Language Models as Agents》探讨了强化学习结合语言模型的可能性；《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》研究了链式思维提示对推理能力的影响；《Learning to Act by Predicting the Future》提出了通过预测未来状态来指导行动的思路。此外，《Aligning Text and Code Representations for Program Synthesis》尝试将文本和代码表示对齐以生成程序，也为智能体优化提供了新视角。

许愿开讲

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论