- 简介大型语言模型和多模态模型的快速发展引发了人们使用专有模型(如GPT-4)开发能够处理现实世界场景(如网络导航)的自主代理的浓厚兴趣。尽管最近的开源努力试图赋予代理探索环境并随时间不断改进的能力,但这些努力主要集中在合成环境中构建纯文本代理,其中奖励信号是明确定义的。然而,这些代理在需要多模态感知能力且缺乏真实信号的现实环境中难以泛化。在本文中,我们介绍了一个开源框架,旨在促进能够自主进行现实世界探索和自我改进的多模态网络代理的开发。首先,我们通过模仿学习训练基础模型以获得基本能力。然后,让代理探索开放网络并收集其轨迹的反馈。之后,它通过从另一个通用模型评估的高性能轨迹中学习来进一步优化其策略。这个探索-反馈-优化循环可以进行多次迭代。实验结果表明,我们的网络代理在每次迭代后都能成功地自我改进,在多个测试集上表现出强大的性能。
-
- 图表
- 解决问题论文尝试解决的问题是开发能够处理现实世界场景(如网络导航)的自主代理,特别是那些需要多模态感知能力并在缺乏真实信号的情况下运行的场景。这是一个相对较新的问题,因为现有的开源努力主要集中在合成环境中的文本代理上。
- 关键思路论文的关键思路是通过一个开放源代码框架来促进多模态网络代理的开发,该框架采用了一个迭代的探索-反馈-优化循环。首先,通过模仿学习训练基础模型以获得基本能力;然后,让代理在开放网络中探索并收集其轨迹的反馈;最后,通过从由另一个通用模型评估的良好表现轨迹中学习来进一步优化策略。这一方法的新颖之处在于它结合了多模态感知和持续的自我改进机制。
- 其它亮点论文的其他亮点包括:1) 实验设计展示了代理在每次迭代后都能显著提高性能;2) 使用了多个测试集来评估代理的表现;3) 提供了开源框架,使得其他研究人员可以复现和扩展这项工作;4) 强调了未来研究的方向,如如何进一步优化反馈机制和提高代理的泛化能力。
- 最近在这个领域中,还有一些相关的研究,例如:1) "Learning to Navigate the Web with Large Language Models",探讨了如何利用大型语言模型来导航网络;2) "Multimodal Reinforcement Learning for Autonomous Agents in Real-World Environments",研究了多模态强化学习在现实世界环境中的应用;3) "Synthetic-to-Real Transfer in Web Navigation Agents",关注了从合成环境到真实世界的迁移学习问题。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流