Watch and Learn: Learning to Use Computers from Online Videos

向作者提问

NEW

简介

计算机使用代理（CUAs）需要在多样且不断变化的应用程序和环境中规划任务工作流，但在目标应用中缺乏大规模、高质量的训练数据，限制了其学习能力。现有的数据集往往局限于特定领域、内容静态且标注成本高昂，而当前的合成数据生成方法通常产生过于简单或与实际任务不符的操作演示。为解决这些问题，我们提出了“观察与学习”（Watch & Learn, W&L）框架，该框架能够大规模地将互联网上 readily available 的人类操作演示视频转化为可执行的用户界面（UI）操作轨迹。与直接生成轨迹或依赖特定推理启发式方法不同，我们将问题建模为一个逆向动力学任务：即根据连续的屏幕状态预测用户所采取的动作。这种建模方式减少了人工设计的复杂性，更易于学习，并能在不同应用程序之间实现更强的泛化能力。具体而言，我们构建了一个结合任务感知视频检索的逆向动力学标注流水线，从原始网络视频中生成了超过5.3万条高质量操作轨迹，并验证了这些轨迹无论是作为上下文中的示范示例，还是作为监督训练数据，均能有效提升CUAs的性能。在具有挑战性的OSWorld基准测试中，通过W&L提取的UI操作轨迹持续提升了通用型及当前最先进框架在上下文学习中的表现，尤其在监督训练下，对开源模型带来了更显著的性能增益。这些结果表明，基于网络规模的人类操作演示视频是推动CUAs迈向实际应用部署的一种切实可行且可扩展的基础途径。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决计算机使用代理（CUAs）因缺乏大规模、高质量训练数据而在多样化和动态应用环境中难以学习有效任务工作流的问题。现有数据集通常局限于特定领域、静态且标注成本高，而合成数据方法常生成过于简单或与真实任务不一致的演示。这是一个现实且关键的新问题，尤其在推动通用智能代理实际部署方面。
关键思路

提出Watch & Learn (W&L) 框架，将从互联网上广泛存在的人类操作视频中提取可执行UI轨迹的问题建模为‘逆向动力学’任务——即根据连续屏幕状态预测用户动作。这一思路避免了直接生成轨迹或依赖手工设计的推理规则，降低了工程复杂性，提升了跨应用的泛化能力。其新颖性在于将视频到动作的映射形式化为逆向动力学问题，并构建端到端可扩展的标注流水线。
其它亮点

开发了任务感知的视频检索与逆向动力学标注流水线，从原始网络视频中生成了超过53,000条高质量UI轨迹；在OSWorld基准上验证了这些轨迹作为上下文示例和监督训练数据均能显著提升CUA性能，尤其对开源模型在监督训练下增益更明显；展示了网络规模人类演示视频作为CUA训练数据的实用性和可扩展性；代码与数据有望推动社区发展（文中暗示可扩展性，虽未明确提及开源，但具备强烈开源潜力）。
相关研究

相关研究包括：1. ‘Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models’（2023），结合视觉模型与语言模型实现基于图像的交互；2. ‘GUI Agent: A Large-Scale Benchmark for Grounded GUI Agents’（2023），构建GUI代理基准；3. ‘AgentImitation: Imitation Learning from Human Demonstrations for GUI Agents’（2024），探索从人类演示中模仿学习；4. ‘ToolLearning: Augmenting Language Models with Tools’（2023），强调工具使用能力；5. ‘WebArena: A Realistic Web Environment for Evaluating Assistive Agents’（2024），提供真实网页测试环境。这些工作共同推动基于界面的智能代理发展，而W&L通过逆向动力学实现大规模视频到轨迹转换，在数据来源与生成方法上形成互补与突破。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问