When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer-Use Agents

2026年02月09日
  • 简介
    过去一年中,计算机使用智能体(CUAs)取得了巨大进展,但其仍频繁产生与用户原始意图相悖的错位行为。此类错位行为可能源于外部攻击(例如间接提示注入),也可能源于智能体自身的内在局限(例如推理错误)。它们不仅使CUAs面临安全风险,还会降低任务执行的效率与可靠性。本文首次系统性地定义并研究了CUAs中的错位行为检测问题,全面涵盖由外部因素诱发及由内部因素引发的两类错位行为。进一步地,我们归纳出实际部署CUAs时常见的三类错位行为,并构建了MisActBench——一个包含真实操作轨迹的数据集,其中所有动作均配有经人工标注的动作级对齐标签。此外,我们提出了DeAction,一种实用且通用的防护机制:它可在动作执行前即刻识别错位行为,并通过结构化反馈进行迭代式修正。在离线与在线双重评估中,DeAction均显著优于所有现有基线方法,且仅引入适中的延迟开销:(1)在MisActBench上,其F1分数较各基线方法绝对提升超过15个百分点;(2)在在线评估中,面对对抗性攻击场景,其可将攻击成功率降低逾90%;而在良性环境(即无攻击场景)下,它不仅能维持原有任务成功率,甚至还能进一步提升。
  • 作者讲解
  • 图表
  • 解决问题
    论文首次系统性地定义并研究计算机使用代理(CUAs)中的‘错位动作检测’问题,即识别代理在执行过程中偏离用户原始意图的动作——这些错位可能由外部攻击(如间接提示注入)或内部缺陷(如错误推理)引发。该问题此前未被明确定义和建模,属于AI代理安全与对齐领域的新问题。
  • 关键思路
    提出DeAction——一种轻量、通用、可插拔的运行时守卫机制:在动作执行前,基于多源上下文(用户指令、历史轨迹、界面状态)进行细粒度动作级对齐判断,并通过结构化反馈驱动代理迭代修正;其创新在于将‘动作对齐’显式建模为可检测、可干预的中间环节,而非依赖端到端微调或事后纠正。
  • 其它亮点
    构建首个动作级对齐基准MisActBench(含真实UI轨迹+人工标注的逐动作对齐标签);在离线评估中F1提升超15个百分点,在线对抗测试中攻击成功率降低>90%且不损良性任务成功率;延迟开销可控(<120ms/动作),已开源代码与MisActBench数据集;未来方向包括跨应用泛化、多模态状态理解、以及与LLM推理过程的联合对齐。
  • 相关研究
    《Voyager: An Open-Ended Embodied Agent with Large Language Models》(NeurIPS 2023);《SWE-agent: An LLM Agent for Software Engineering Tasks》(ICML 2024);《AgentScope: A Flexible and Transparent Framework for Building Multi-Agent Systems》(ACL 2024);《Prompt Injection Attacks Against LLM-Based Agents》(USENIX Security 2024);《Self-Refine: Iterative Refinement with Self-Feedback》(ICLR 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问