引言

大语言模型驱动的GUI智能体能够自主执行移动设备上的多步骤任务,但频繁的应用更新带来了严峻挑战。UI外观改变和操作流程重组导致基于固定数据集训练的智能体难以快速低成本适配。具体而言,外观漂移(Appearance Drift)指UI元素在保持功能不变的情况下重新设计,例如Twitter图标从蓝色小鸟变为黑色"X",现有智能体依赖视觉特征识别元素,外观变化直接导致定位失败。工作流漂移(Workflow Drift)指操作逻辑在版本间重组但任务目标保持不变,例如"切换货币为USD"在不同版本中可能遵循完全不同的导航路径。


图1:动态移动环境中的挑战与机遇。左侧展示外观漂移与语义稳定性、工作流漂移与意图稳定性;右侧对比无记忆方法的失效与MAGNET框架的成功适应。

然而,尽管应用界面不断变化,仍存在两个关键的稳定性。第一是语义稳定性,即重新设计的UI元素保持相同功能;第二是意图稳定性,即尽管工作流重组,高层任务目标保持一致。为了利用这些稳定性实现智能体的持续适应,来自复旦大学、上海创智学院和南加州大学的学者提出了MAGNET,这是一个基于双层记忆系统和动态演化机制的自适应GUI智能体框架。MAGNET通过程序记忆捕获任务工作流的意图稳定性,通过静态记忆捕获UI元素的语义稳定性,在不断演化的移动应用环境中保持智能体的有效性。


  • 论文地址:

    https://arxiv.org/pdf/2601.19199

  • Github地址:

    https://github.com/sunlibo2390/MAGNET




MAGNET框架

图2:MAGNET框架整体架构。规划器利用程序性记忆将用户请求分解为子任务,执行器利用静态记忆对每个子任务进行UI元素定位,动态记忆演化机制通过记忆更新和排序优化持续适应环境变化。

MAGNET采用规划器-执行器(Planner-Actor)架构,配备双层记忆系统和动态演化机制。当接收到用户请求后,规划器查询程序性记忆检索相关工作流并分解为子任务。对于每个涉及UI操作的子任务,执行器查询静态记忆检索UI元素示例进行定位。成功完成任务后,系统自动提取新知识更新记忆库。


具有程序记忆的经验增强规划器

程序记忆(Procedural Memory)捕获意图稳定性,存储抽象工作流模板以应对工作流漂移。每个模板包含任务类别名称(如"搜索并安装应用")和高层步骤序列(使用类别占位符表示变量元素,如[AppName]、[SearchQuery])。当接收到新指令时,规划器从记忆库中检索得到最相关的工作流并整合到上下文中。通过参考这些工作流模板,规划器生成适应当前界面状态的具体子任务序列。


具有静态记忆的知识定位执行器

静态记忆(Stationary Memory)捕获语义稳定性,将UI元素的视觉表示与功能意图关联以应对外观漂移。记忆存储包括功能描述(如"点击搜索图标开始搜索")和对应的视觉补丁(UI元素截图)。当子任务涉及UI元素定位时,执行器使用子任务描述作为查询,计算与记忆库中功能描述的余弦相似度,检索排名最高的条目并提取其控件图像作为参考。对于通用MLLM(如Qwen2.5-VL、Gemini),检索到的补丁直接拼接到执行器上下文(包括当前屏幕截图、指令、历史动作、子任务)中,使模型能够通过参考示例进行鲁棒定位。对于专用定位模型(如OS-Atlas),我们采用轻量级注入策略。检索到的补丁通过模板匹配定位到当前屏幕,在匹配点周围绘制包含最近若干个图标的边界框作为视觉提示,在不修改模型输入格式的前提下注入静态记忆。


动态记忆演化机制

为确保记忆在应用变化后保持有效,我们设计了内容更新和自适应排名两个机制。

在内容更新方面,程序性记忆将成功任务轨迹提取的工作流作为独立条目存储,记录创建时间戳和检索计数,为相似任务保留多个执行路径。静态记忆在观察到新定位动作时生成“功能描述-控件图片”对,若功能描述已存在则追加新控件图片,否则创建新条目,每张图像独立跟踪使用历史。

在自适应排名方面,系统通过知识创建时间(偏好与当前版本对齐的条目)和保留分数(反映经验效用)两个信号优先可靠知识。受Ebbinghaus遗忘曲线启发,系统维护全局计数器和每条记忆的元数据,计算保持分数,其中gi为不活跃间隔,ni为记忆已被使用次数。检索时先用语义相似度筛选候选,再用保持分数和创建时间排序,确保频繁访问的条目衰减更慢,自然淘汰过时信息。





实验

实验设置

我们在离线和在线两种设置下评估MAGNET。

离线评估在AITZ、GUI-Odyssey和Amex三个基准上验证初始化记忆的可靠性和泛化能力。为评估泛化能力,我们为GUI-Odyssey和Amex创建自定义划分,产生域内(ID)、模板偏移(TS)、应用偏移(AS)和领域偏移(DS)子集。评估指标包括成功率(SR,即每步预测动作的准确率)和定位准确率(Grd.,即点击动作的坐标预测准确率)。

在线评估在AndroidWorld环境中进一步评估记忆的持续适应能力。所有智能体使用Qwen2.5-VL-32B作为基座模型,与M3A、AppAgent和Agent-S基线对比。记忆增强智能体首先执行自我探索或任务演示以初始化记忆,然后在评估阶段利用累积的记忆。评估指标为任务完成率(SR),使用官方评估脚本评估智能体是否成功完成端到端任务。


实验结果及解读

离线评估:验证初始化记忆的有效性

表1:离线评估结果。我们报告成功率(SR)和定位准确率(Grd.)。方法分为两类:(1) 专用模型(通过SFT或RL参数调优);(2) 智能体框架(仅推理或基于冻结模型的检索增强)。标记†的方法为记忆增强框架。粗体表示组内最佳性能。

我们在AITZ、GUI-Odyssey和Amex三个基准的域内子集上评估MAGNET,以验证初始化记忆的可靠性。表1显示,使用Qwen2.5-VL-32B作为基座时,MAGNET在所有三个数据集上一致优于COAT和Agent-S。使用更强基座Gemini-2.5-Pro时,MAGNET在AITZ上达到52.77%的SR,显著缩小与专用模型的差距(66.64%),且在Amex上的定位准确率达到75.54%。这些结果展示了双层记忆设计在固定基础模型下的有效性,以及框架能够受益于更强基础模型的潜力。


在线评估:验证记忆的适应性

表2:在线AndroidWorld环境中与其他记忆增强基线的对比。

我们在AndroidWorld环境中进一步评估MAGNET的持续适应能力。所有智能体首先执行三轮任务以初始化记忆,然后在61个任务上正式评估。表2显示,MAGNET达到42.62%的任务完成率,比AppAgent(34.43%)高8.2个百分点,比Agent-S(40.98%)高1.6个百分点。这一性能优势源于MAGNET联合建模了UI级和工作流级知识,而Agent-S缺少视觉记忆能力。此外,AppAgent构建的记忆依赖XML标识符,这种记忆构造在界面重构后易失效,而MAGNET对于控件的记忆基于其视觉图像和功能描述,能够在真实的动态环境下更好地适应变化。


消融实验

表3:MAGNET记忆组件的消融研究。结果报告在GUI-Odyssey和Amex的ID子集上,使用相同MLLM作为规划器和执行器。Stat.和Proc.分别表示静态记忆和程序性记忆。

图3:模板偏移、应用偏移和领域偏移子集的结果。MLLM同时作为规划器和执行器。虚线表示基线性能。

我们在四种配置下评估记忆组件的作用:基线(无记忆)、仅程序性记忆、仅静态记忆以及两者结合。表3显示,程序性记忆带来更大的SR提升,因其直接影响任务分解质量;静态记忆在定位准确率上展现价值(+0.26%至+0.88%),在处理新图标场景时尤为关键。仅静态记忆(60.20%)的表现与基线(59.68%)接近,但加入程序性记忆后协同效应显现(62.84%),增益大于两者单独效果之和。这说明两种记忆之间存在互补关系:程序性记忆提供的工作流上下文帮助执行器更好地理解"当前应该找什么元素",而静态记忆的视觉示例则帮助规划器验证"某个操作路径在当前界面是否可行"。

我们进一步在模板偏移(TS)、应用偏移(AS)和领域偏移(DS)子集上评估(图4),发现不同类型的分布偏移对两种记忆的需求并不对称。在TS和AS场景下,静态记忆的提升更显著,因为这两种偏移主要改变UI视觉呈现但任务逻辑稳定,静态记忆中的视觉-功能语义对能帮助智能体适应"换样子但功能相同"的UI元素。相比之下,在DS场景下程序性记忆价值重新显现,因为领域偏移引入全新应用类别,此时抽象工作流模板展现出更强的跨领域迁移能力。强模型(Gemini-2.5-Pro)在所有偏移类型下都展现更稳定的记忆利用,这说明模型的抽象能力决定了从异构记忆中"取其精华"的效率。这启示未来需要设计智能记忆选择机制,根据偏移类型动态调整对两种记忆的检索权重。


跨架构鲁棒性

表4:MAGNET在不同架构上的有效性。报告在五种规划器-执行器配置上的平均改进(Δ),分为同构配置(规划器和执行器使用相同模型)和异构配置(不同模型)。结果在AITZ、GUI-Odyssey和Amex数据集上平均。

我们在五种规划器-执行器配置上测试MAGNET的通用性,包括同构配置和异构配置。表4显示,MAGNET在所有配置上带来平均+2.3% SR和+2.7% Grd的提升。异构配对的改进更显著,特别是QwenVL + OS-Atlas达到+4.2% SR,其中执行器是专用定位模型通过注入策略整合静态记忆。即使在强同构设置下(Gemini + Gemini: +1.5% SR),记忆仍提供明显增益。这些结果证明提出的记忆设计在架构选择间具有泛化性,能够有效补偿规划和执行模块之间的能力差异,支持灵活的部署策略。


持续演化能力

表5:在线环境种MAGNET的任务成功率(SR)和旧记忆使用率(Proc_Amex, Stat_Amex)随迭代次数的变化。

我们在AndroidWorld环境中进行持续学习实验,评估记忆的动态适应能力。使用Amex数据集初始化记忆后,在AndroidWorld任务上迭代部署,每次迭代后将新获得的经验纳入记忆库。表5显示,成功率从初始的31.14%持续提升至第三轮的40.98%。同时,来自Amex的记忆使用占比急剧下降——程序性记忆从100%降至26%,静态记忆从100%降至18%,表明系统主动用AndroidWorld特定经验替换了初始记忆。这一趋势确认动态记忆演化机制有效屏蔽过时或不相关记忆,通过持续在线学习适应新环境。





结论与局限性

本研究针对GUI智能体在频繁应用更新中难以适应的挑战,提出了MAGNET,一个基于双层记忆系统和动态演化机制的自适应框架。MAGNET识别出外观漂移和工作流漂移背后隐藏的语义稳定性与意图稳定性,通过程序性记忆捕获可重用的工作流模板以应对工作流重组,通过静态记忆将多样视觉特征与稳定功能语义关联以应对界面改版。框架配备自动化记忆构建流程和基于遗忘曲线的保持分数机制,能够从成功任务中持续提取知识并优先保留频繁访问的信息。在AndroidWorld和三个离线基准的广泛实验中,MAGNET超越现有记忆增强基线,且在使用强基座模型时接近专用模型性能。消融研究证实双层记忆的互补作用,跨架构实验展现框架的通用性,持续学习实验验证了系统能够主动用新环境的经验替换过时记忆,有效提升智能体对动态环境的自主适应。

尽管MAGNET展现了鲁棒的适应能力,但仍存在局限。框架依赖成功轨迹进行记忆构建,这使其在完全新颖的领域中效果受限,特别是当初始探索失败时。此外,基于聚类的工作流提取可能难以处理高度多样化、不形成清晰模式的任务结构。未来工作可探索零样本记忆初始化方法或从失败经验中学习,同时研究更灵活的工作流表示如层次化或图结构,以进一步提升自适应GUI智能体在真实场景中的实用性和泛化能力。




END


复旦大学数据智能与社会计算实验室


Fudan DISC


联系方式:disclab@fudan.edu.cn

地址:复旦大学邯郸校区袁天凡、慧敏校园C栋



点击“阅读原文”跳转至论文主页

内容中包含的图片若涉及版权问题,请及时与我们联系删除