When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer-Use Agents

向作者提问

NEW

简介

过去一年中，计算机使用智能体（CUAs）取得了巨大进展，但其仍频繁产生与用户原始意图相悖的错位行为。此类错位行为可能源于外部攻击（例如间接提示注入），也可能源于智能体自身的内在局限（例如推理错误）。它们不仅使CUAs面临安全风险，还会降低任务执行的效率与可靠性。本文首次系统性地定义并研究了CUAs中的错位行为检测问题，全面涵盖由外部因素诱发及由内部因素引发的两类错位行为。进一步地，我们归纳出实际部署CUAs时常见的三类错位行为，并构建了MisActBench——一个包含真实操作轨迹的数据集，其中所有动作均配有经人工标注的动作级对齐标签。此外，我们提出了DeAction，一种实用且通用的防护机制：它可在动作执行前即刻识别错位行为，并通过结构化反馈进行迭代式修正。在离线与在线双重评估中，DeAction均显著优于所有现有基线方法，且仅引入适中的延迟开销：（1）在MisActBench上，其F1分数较各基线方法绝对提升超过15个百分点；（2）在在线评估中，面对对抗性攻击场景，其可将攻击成功率降低逾90%；而在良性环境（即无攻击场景）下，它不仅能维持原有任务成功率，甚至还能进一步提升。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文首次系统性地定义并研究计算机使用代理（CUAs）中的‘错位动作检测’问题，即识别代理在执行过程中偏离用户原始意图的动作——这些错位可能由外部攻击（如间接提示注入）或内部缺陷（如错误推理）引发。该问题此前未被明确定义和建模，属于AI代理安全与对齐领域的新问题。
关键思路

提出DeAction——一种轻量、通用、可插拔的运行时守卫机制：在动作执行前，基于多源上下文（用户指令、历史轨迹、界面状态）进行细粒度动作级对齐判断，并通过结构化反馈驱动代理迭代修正；其创新在于将‘动作对齐’显式建模为可检测、可干预的中间环节，而非依赖端到端微调或事后纠正。
其它亮点

构建首个动作级对齐基准MisActBench（含真实UI轨迹+人工标注的逐动作对齐标签）；在离线评估中F1提升超15个百分点，在线对抗测试中攻击成功率降低>90%且不损良性任务成功率；延迟开销可控（<120ms/动作），已开源代码与MisActBench数据集；未来方向包括跨应用泛化、多模态状态理解、以及与LLM推理过程的联合对齐。
相关研究

《Voyager: An Open-Ended Embodied Agent with Large Language Models》（NeurIPS 2023）；《SWE-agent: An LLM Agent for Software Engineering Tasks》（ICML 2024）；《AgentScope: A Flexible and Transparent Framework for Building Multi-Agent Systems》（ACL 2024）；《Prompt Injection Attacks Against LLM-Based Agents》（USENIX Security 2024）；《Self-Refine: Iterative Refinement with Self-Feedback》（ICLR 2024）

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问