ExpeL: LLM Agents Are Experiential Learners
A Zhao, D Huang, Q Xu, M Lin, Y Liu, G Huang
[Tsinghua University]
-
ExpeL是一个自主的智能体,通过经验学习而不需要参数更新,与专用LLM兼容。
-
训练过程中,通过反复试错收集各种经验,存储在经验池中。
-
通过比较失败和成功以及发现成功的模式来提取自然语言形式的洞见。
-
在测试时,回想起相似任务的过去成功轨迹,并应用洞见来指导决策。
-
在问答、具身任务和电子商务等3个领域的实验中,与强大的基准相比都取得了性能提升。
-
在训练过程中ExpeL开发出了推理、信念更新和错误修正等涌现能力。
-
提出一个迁移学习设置,来源任务的洞见只需要很少目标任务例子就可以帮助目标任务。
-
关键优势是可解释性、资源需求低、与模型无关,以及利用更好LLM的潜力。
-
限制是只有文本观测和依赖专有LLM。
-
ExpeL展示了通过经验驱动的学习而不需要模型更新来增强LLM智能体的前景。该智能体利用自然语言从自己的成功和失败中学习。这种范式可能是赋予AI系统更人性化学习能力的关键。
动机:当前的大语言模型(LLM)在决策任务中的应用日益增多,但针对特定任务对LLM进行微调需要大量资源,并且可能降低模型的泛化能力。此外,当前的LLM主要通过API调用进行访问,其参数权重对公众不可用。因此,需要一种新方法,允许从智能体经验中学习而无需参数更新。
方法:介绍了一种名为ExpeL的智能体方法,该方法通过自主收集经验并使用自然语言从一组训练任务中提取知识。在推理过程中,智能体回顾其提取的见解和过去的经验以做出明智的决策。
优势:ExpeL智能体的实证结果表明,随着经验的积累,其性能持续提高。此外,论文还探讨了ExpeL智能体的涌现能力和迁移学习潜力。
一句话总结: 介绍了一种基于经验学习的智能体方法ExpeL,通过自主收集经验和使用自然语言从训练任务中提取知识,实现了在决策任务中的持续性能提升和迁移学习。
https://arxiv.org/abs/2308.10144
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢