A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis
Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust
[Google DeepMind & The University of Tokyo]
具备规划长程上下文理解和程序合成能力的真实世界WebAgent

-
动机:尽管预训练大型语言模型(LLM)最近在自主网络漫游中取得了更好的泛化和采样效率,但在处理真实世界网站的性能仍受到开放领域性、有限的上下文长度和对HTML的归纳偏差的限制。
-
方法:提出WebAgent,一个由LLM驱动的智能体,能遵循自然语言指令在真实网站上完成任务。WebAgent通过将指令分解成规范化的子指令进行预先规划,将长HTML文档总结为任务相关的片段,并通过生成Python程序来对网站进行操作。使用Flan-U-PaLM进行代码生成,以及HTML-T5,一种新的预训练LLM,用于处理长HTML文档的规划和总结。
-
优势:所提出方法可以提高在真实网站上的成功率超过50%,HTML-T5是解决HTML基础任务的最佳模型,比之前的SoTA在MiniWoB web漫游基准上提高了14.9%的成功率,并在离线任务规划评估上有更好的准确性。
提出一个名为WebAgent的新型智能体,集成了两种大型语言模型,可以处理真实网站的导航任务,同时引入了HTML-T5,一种专门处理HTML的预训练模型,这两者共同提高了在实际网站漫游中的成功率。

论文:https://arxiv.org/abs/2307.12856
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢