WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

2024年11月04日
  • 简介
    大型语言模型(LLMs)作为自主代理在基于网络的任务中展示了显著的潜力。然而,现有的LLM网络代理严重依赖昂贵的专有LLM API,而开源LLM缺乏必要的决策能力。本文介绍了WebRL,这是一种自我进化的在线课程强化学习框架,旨在使用开源LLM训练高性能的网络代理。WebRL解决了构建LLM网络代理的三个关键挑战,包括训练任务的稀缺性、稀疏的反馈信号以及在线学习中的策略分布漂移。具体来说,WebRL结合了1)一种从失败尝试中生成新任务的自我进化课程,2)一个强大的结果监督奖励模型(ORM),以及3)适应性的强化学习策略,以确保持续改进。我们将WebRL应用于将开源的Llama-3.1和GLM-4模型转变为熟练的网络代理。在WebArena-Lite上,WebRL将Llama-3.1-8B的成功率从4.8%提高到42.4%,将GLM-4-9B的成功率从6.1%提高到43%。这些开源模型显著超过了GPT-4-Turbo(17.6%)和GPT-4o(13.9%)的表现,并且优于之前基于开源LLM训练的最佳网络代理(AutoWebGLM,18.2%)。我们的研究结果表明,WebRL在弥合开源和专有LLM基础网络代理之间的差距方面具有有效性,为更易获取且功能更强大的自主网络交互系统铺平了道路。
  • 图表
  • 解决问题
    该论文试图解决如何利用开放的大语言模型(LLMs)构建高效的网络代理的问题。现有的开放LLMs在决策能力上不足,而依赖昂贵的专有LLM API则成本高昂。这是一个重要的问题,因为开放模型的广泛应用可以显著降低开发成本并提高可访问性。
  • 关键思路
    论文的关键思路是引入了一种名为WebRL的自进化在线课程强化学习框架,该框架通过自动生成新任务、使用稳健的结果监督奖励模型(ORM)和适应性强化学习策略来训练高性能的网络代理。这种框架能够解决训练任务稀缺、反馈信号稀疏和在线学习中的策略分布漂移等问题,从而提升开放LLMs的性能。
  • 其它亮点
    论文在WebArena-Lite数据集上展示了显著的性能提升,Llama-3.1-8B的成功率从4.8%提高到42.4%,GLM-4-9B的成功率从6.1%提高到43%。这些开放模型不仅超过了GPT-4-Turbo和GPT-4o等专有模型,还超越了之前基于开放LLMs的最先进网络代理(如AutoWebGLM)。此外,论文提供了开源代码,为未来的研究和应用提供了基础。
  • 相关研究
    最近在这个领域中,相关的研究包括:1) AutoWebGLM: An Autonomous Web Agent Based on Open Large Language Models (2023),该研究尝试通过强化学习提升开放LLMs的网络代理能力;2) ReAct: Action-Reasoning Loop for Overcoming Limitations of Large Language Models in Interactive Environments (2022),该研究提出了一种行动-推理循环机制来增强LLMs的交互能力;3) WebGPT: Browser-assisted question answering with human feedback (2021),该研究探索了结合人类反馈和浏览器辅助的问答系统。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论