[Paper] 当行动偏离任务时:检测并纠正 Computer-Use Agents 中的不匹配行动
发布: (2026年2月10日 GMT+8 02:41)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.08995v1
概述
论文 When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer‑Use Agents 探讨了一个随着大语言模型(LLM)驱动的助手开始控制真实软件而日益突显的问题:代理经常执行与用户意图不符的操作。这些“错位”操作可能源于恶意提示注入或简单的推理错误,导致安全隐患和时间浪费。作者提出了一种系统化的方法来检测此类操作,并构建了一个防护框架——DeAction,能够在操作运行之前阻止并修正它们。
关键贡献
- Formal definition of misaligned actions:对计算机使用代理的错位行为进行正式定义,涵盖外部攻击和内部推理失误。
- MisActBench:一个全新的基准,包含带有人类标注、逐步对齐标签的真实交互轨迹。
- DeAction:一种通用、轻量级的安全护栏,能够 (1) 在执行前检测错位行为,(2) 通过结构化反馈迭代纠正这些行为。
- Empirical validation:实验表明,在 MisActBench 上相较于先前基线提升了超过 15 % 的 F1 分数,并在现场测试中将攻击成功率降低了超过 90 %,且仅带来适度的延迟开销。
方法论
- 问题框定 – 作者将每个由代理生成的操作(例如 CLI 命令、鼠标点击)视为需要相对于用户原始目标进行验证的候选项。
- 数据集构建 – 收集了多个 CUA 部署的真实使用日志,然后通过众包标注员将每个操作标记为 aligned(对齐)或 misaligned(不对齐)。由此得到的 MisActBench 包含了跨文件管理、网页浏览、IDE 使用等领域的数千个多步骤会话。
- DeAction 架构 –
- 检测模块:一个轻量级 LLM(或微调分类器),接收用户查询、代理的内部计划以及提议的下一步操作,输出二元的 “aligned?” 分数以及置信度估计。
- 纠正循环:如果操作被标记为不对齐,DeAction 会向底层代理发送结构化的反馈信息(例如,“您提议的命令会删除
*.log文件,但用户只要求清理临时文件”),促使代理 重新推理 并生成修正后的操作。该循环重复进行,直至检测器满意或达到最大重试次数。
- 评估 – 通过离线(基准评分)和在线(与沙箱 CUA 的实时交互)实验,对 DeAction 与静态规则过滤器、事后验证以及已有的对齐检查基线进行比较。
结果与发现
| 指标 | 基线(最佳) | DeAction |
|---|---|---|
| F1(错位检测) | 0.68 | 0.84(+15 % 绝对值) |
| 攻击成功率(间接提示注入) | 0.42 | 0.04(‑90 %) |
| 任务成功率(良性查询) | 0.91 | 0.92(略有提升) |
| 每步平均延迟 | 120 ms | ≈ 180 ms(≈ 60 ms 额外开销) |
关键要点:DeAction 在恶意或错误操作影响系统之前捕获大多数情况,而其迭代反馈常常将代理 nudges(推动)向更好的解决方案,有时甚至提升整体任务成功率。
实际影响
- 更安全的自动化流水线 – 将 DeAction 作为执行前的门控集成,可保护 CI/CD 机器人、DevOps 脚本或任何基于 LLM 的自动化免受意外破坏性指令的影响。
- 企业合规 – 企业可以通过让 DeAction 实时标记违规来强制执行政策约束(例如 “禁止将数据导出到外部域名”)。
- 开发者工具 – IDE 助手(如 GitHub Copilot、Cursor)可以使用 DeAction 双重检查文件系统或构建系统的操作,降低意外副作用的风险。
- 对抗鲁棒性 – 该框架显著降低间接提示注入攻击的成功率,这对向终端用户公开 LLM 接口的 SaaS 产品来说是日益关注的问题。
限制与未来工作
- 领域特定性 – 虽然 MisActBench 覆盖了多个常见的桌面任务,但检测模型可能需要针对细分领域(例如网络设备配置)进行进一步微调。
- 延迟权衡 – 迭代纠正循环会带来少量但不可忽视的延迟;超低延迟的使用场景(例如高频交易机器人)可能需要更精简的版本。
- 对 LLM 推理的依赖 – 如果底层代理的推理根本存在缺陷,DeAction 的反馈可能无法收敛到正确的动作,这凸显了更强内部验证机制的必要性。
- 未来方向:作者提出的建议包括:将 MisActBench 扩展到多模态动作(例如 GUI 点击),探索基于强化学习的护栏以实现随时间自适应,并集成静态代码分析工具以提供更深层次的安全保障。
作者
- Yuting Ning
- Jaylen Jones
- Zhehao Zhang
- Chentao Ye
- Weitong Ruan
- Junyi Li
- Rahul Gupta
- Huan Sun
论文信息
- arXiv ID: 2602.08995v1
- 分类: cs.CL
- 发布日期: 2026年2月9日
- PDF: 下载 PDF