Build the web for agents, not agents for the web

简介

近期，大型语言模型（LLMs）及其多模态变体的进展引发了人们对开发网络代理的极大兴趣——这些人工智能系统能够自主地在网络环境中导航并完成任务。尽管在自动化复杂网络交互方面展现出巨大潜力，当前的方法由于人类设计的界面与LLM能力之间的根本性不匹配而面临重大挑战。现有方法在处理网络输入的固有复杂性时表现不佳，无论是解析庞大的DOM树、依赖带有额外信息的截图，还是通过API交互完全绕过用户界面。本文立场论文提倡在网络代理研究中实现范式转变：与其强迫网络代理适应为人类设计的界面，我们应开发一种专门为代理能力优化的新交互范式。为此，我们引入了“代理化网络界面”（Agentic Web Interface, AWI）的概念，这是一种专为代理设计以导航网站的界面。我们提出了AWI设计的六大指导原则，强调安全性、效率和标准化，以兼顾所有主要利益相关者的利益。这种重新定义旨在克服现有界面的根本局限性，为更高效、可靠和透明的网络代理设计铺平道路，而这将需要更广泛的机器学习社区共同努力来实现。
图表
解决问题

论文试图解决当前网页代理（web agents）在处理复杂人类设计的网页界面时面临的挑战，例如DOM树解析、截图信息依赖和API交互等问题。这是一个新问题，强调需要重新思考如何设计更适合AI代理的网页交互方式。
关键思路

关键思路是提出一种名为Agentic Web Interface (AWI) 的新型交互范式，专门针对AI代理进行优化。与现有方法不同，AWI不试图让代理适应人类设计的界面，而是通过六大设计原则（如安全性、效率和标准化）来构建新的代理友好型界面，从而提升代理的任务完成效率和可靠性。
其它亮点

论文强调了AWI的六个核心设计原则，并提出了跨利益相关者的协作需求。虽然没有具体提及实验设计或数据集，但作者明确指出这一方向需要整个ML社区的共同努力。此外，论文呼吁对安全性和透明度给予更多关注，这可能成为未来研究的重要方向。目前尚未提到开源代码，但该领域的后续工作可能会涉及具体的AWI实现。
相关研究

近期相关研究包括：1) 使用LLMs直接解析DOM树以完成网页任务；2) 基于屏幕截图和OCR技术的多模态网页代理开发；3) API驱动的网页自动化方法。一些相关论文标题包括《Screen2Program: Bridging the Gap Between Screenshots and Executable Code》和《WebGPT: Browser Automation with Large Language Models》。

Build the web for agents, not agents for the web

评论